Professional Machine Learning Engineer

Question 41

あなたは自動車会社のAIチームに所属しており、TensorFlowとKerasを使用して視覚的な欠陥検出モデルを開発しています。モデルのパフォーマンスを向上させるために、平行移動、トリミング、コントラスト調整などの画像拡張機能を組み込みたいと考えています。これらの機能は、各トレーニングバッチにランダムに適用します。実行時間と計算リソースの使用率に関して、データ処理パイプラインを最適化したいと考えています。どうすればよいですか?

A.
拡張機能をtf.Dataパイプラインに動的に埋め込みます。
B.
拡張機能をKerasジェネレータの一部として動的に埋め込みます。
C.
Dataflowを使用して考えられるすべての拡張を作成し、TFRecordsとして保存します。
D.
Dataflowを使用してトレーニング実行ごとに動的に拡張を作成し、TFRecordsとしてステージングします。
Question 42

あなたは、5000万人以上の読者にニュース記事を配信するオンライン出版社に勤務しています。あなたは、同社の週刊ニュースレター向けのコンテンツを推薦するAIモデルを構築しました。推薦が成功したとみなされるのは、ニュースレターの発行日から2日以内に記事が開封され、かつユーザーがそのページに少なくとも1分間滞在した場合です。 成功指標の計算に必要なすべての情報はBigQueryにあり、1時間ごとに更新されます。モデルは8週間のデータでトレーニングされ、平均して5週間後にその性能が許容可能なベースラインを下回ります。トレーニング時間は12時間です。あなたは、コストを最小限に抑えつつ、モデルの性能が許容可能なベースラインを上回るようにしたいと考えています。再トレーニングが必要な時期を判断するために、どのようにモデルを監視すべきですか?

A.
Vertex AI モデルモニタリングを使用して、サンプリングレート100%、監視頻度2日で入力特徴量のスキューを検出する。
B.
Cloud Tasksでcronジョブをスケジュールし、ニュースレターが作成される前に毎週モデルを再トレーニングする。
C.
BigQueryで週次クエリをスケジュールし、成功指標を計算する。
D.
Cloud Composerで日次Dataflowジョブをスケジュールし、成功指標を計算する。
Question 43

1年前にMLモデルを本番環境にデプロイしました。毎月、前月にモデル予測サービスに送信されたすべての生のリクエストを収集しています。これらのリクエストの一部を人手によるラベリングサービスに送り、モデルのパフォーマンスを評価しています。1年後、モデルのパフォーマンスがある月は1ヶ月で大幅に低下する一方、他の月ではパフォーマンスの低下に気づくまでに数ヶ月かかることがあることに気づきました。ラベリングサービスは高コストですが、大幅なパフォーマンス低下も避ける必要があります。コストを最小限に抑えながら高レベルのパフォーマンスを維持するために、モデルをどれくらいの頻度で再学習すべきかを決定したいと考えています。どうすべきでしょうか?

A.
学習データセットで異常検知モデルを学習させ、すべての受信リクエストをこのモデルに通します。異常が検出された場合、最新のサービングデータをラベリングサービスに送ります。
B.
過去1年間のモデルのパフォーマンスにおける時間的パターンを特定します。これらのパターンに基づいて、翌年のサービングデータをラベリングサービスに送るスケジュールを作成します。
C.
過去1年間のラベリングサービスのコストと、モデルのパフォーマンス低下による逸失収益を比較します。逸失収益がラベリングサービスのコストよりも大きい場合はモデルの再学習頻度を上げ、そうでない場合はモデルの再学習頻度を下げます。
D.
学習データセットの特徴量の集計統計と最近のサービングデータを比較するために、学習・サービング間のスキュー検出バッチジョブを数日おきに実行します。スキューが検出された場合、最新のサービングデータをラベリングサービスに送ります。
Question 44

あなたは、大手映画館チェーンのチケット発行プラットフォームを管理する会社に勤務しています。顧客はモバイルアプリを使用して、興味のある映画を検索し、アプリ内でチケットを購入します。チケット購入リクエストはPub/Subに送信され、以下のステップを実行するように設定されたDataflowストリーミングパイプラインで処理されます。 1. 選択された映画館での映画チケットの空き状況を確認します。 2. チケット価格を割り当て、支払いを受け付けます。 3. 選択された映画館でチケットを予約します。 4. 購入成功情報をデータベースに送信します。 このプロセスの各ステップには、低レイテンシ要件(50ミリ秒未満)があります。あなたはBigQuery MLを使用して、無料ポップコーンのプロモーションコードを提供することがチケット購入の可能性を高めるかどうかを予測するロジスティック回帰モデルを開発しました。この予測をチケット購入プロセスに追加する必要があります。あなたはこのモデルを本番環境にデプロイする最も簡単な方法を特定し、かつレイテンシの追加を最小限に抑えたいと考えています。どうすべきでしょうか?

A.
発行された新しいチケットのセットごとに、BigQuery MLを使用して5分間隔でバッチ推論を実行する。
B.
モデルをTensorFlow形式でエクスポートし、Dataflowパイプラインに`tfx_bsl.public.beam.RunInference`ステップを追加する。
C.
モデルをTensorFlow形式でエクスポートし、Vertex AIにデプロイして、ストリーミングパイプラインから予測エンドポイントをクエリする。
D.
モデルをTensorFlow Lite (TFLite) で変換し、モバイルアプリに追加して、プロモーションコードと受信リクエストが一緒にPub/Subに到着するようにする。
Question 45

あなたはサーバーメンテナンスを担当するデータセンターのチームに所属しています。経営陣は、監視データを使用して潜在的なサーバー障害を検出する予知保全ソリューションの構築をあなたに求めています。インシデントデータはまだラベル付けされていません。最初に何をすべきですか?

A.
時系列モデルを訓練してマシンのパフォーマンス値を予測します。マシンの実際のパフォーマンス値が予測パフォーマンス値と著しく異なる場合にアラートを設定します。
B.
単純なヒューリスティック(例:zスコアに基づく)を開発して、マシンの過去のパフォーマンスデータにラベルを付けます。このヒューリスティックを使用して、リアルタイムでサーバーのパフォーマンスを監視します。
C.
単純なヒューリスティック(例:zスコアに基づく)を開発して、マシンの過去のパフォーマンスデータにラベルを付けます。このラベル付きデータセットに基づいて異常を予測するモデルを訓練します。
D.
資格のあるアナリストのチームを雇い、マシンの過去のパフォーマンスデータを確認しラベル付けさせます。この手動でラベル付けされたデータセットに基づいてモデルを訓練します。