Professional Machine Learning Engineer

Question 26

あなたは新しい動画ストリーミングプラットフォームを開発している会社に勤務しています。ユーザーが次に視聴する動画を提案する推薦システムを作成するよう依頼されました。AI倫理チームによるレビューの結果、開発を開始することが承認されました。あなたの会社のカタログにある各動画アセットには有用なメタデータ(例:コンテンツタイプ、リリース日、国)がありますが、過去のユーザーイベントデータはありません。製品の最初のバージョンでは、どのように推薦システムを構築すべきですか?

A.
機械学習なしで製品をローンチします。ユーザーに動画をアルファベット順に提示し、将来的に推薦モデルを開発できるようにユーザーイベントデータの収集を開始します。
B.
機械学習なしで製品をローンチします。コンテンツメタデータに基づいた単純なヒューリスティックスを使用してユーザーに類似の動画を推薦し、将来的に推薦モデルを開発できるようにユーザーイベントデータの収集を開始します。
C.
機械学習ありで製品をローンチします。MovieLensなどの公開データセットを使用してRecommendations AIでモデルを訓練し、その訓練済みモデルを自社のデータに適用します。
D.
機械学習ありで製品をローンチします。TensorFlowを使用してコンテンツメタデータでオートエンコーダを訓練することにより、各動画の埋め込みを生成します。これらの埋め込みの類似性に基づいてコンテンツをクラスタリングし、同じクラスタから動画を推薦します。
Question 27

あなたは最近、自動運転車向けの画像セグメンテーションモデルの最初のバージョンを構築しました。モデルをデプロイした後、AUC(曲線下面積)メトリックの低下が観察されました。ビデオ録画を分析すると、交通量が少ない状況ではモデルは期待通りに動作するものの、非常に混雑した交通状況では失敗することも発見しました。この結果の最も可能性の高い理由は何ですか?

A.
モデルは交通量が少ないエリアでは過学習し、交通量が多いエリアでは未学習である。
B.
AUCはこの分類モデルを評価するための正しいメトリックではない。
C.
モデルのトレーニングに、混雑したエリアを表すデータが過剰に使用された。
D.
出力ノードから入力ノードへの逆伝播中に勾配が小さくなり消失している。
Question 28

あなたは住宅価格を予測するための機械学習モデルを開発しています。データ準備中に、重要な予測変数である「最寄りの学校からの距離」がしばしば欠損しており、かつ分散が高くない(値のばらつきが少ない)ことに気づきました。データ内のすべてのインスタンス(行)は重要です。この欠損データをどのように処理すべきですか?

A.
欠損値のある行を削除する。
B.
欠損値のない別の列との特徴量交差を適用する。
C.
線形回帰を使用して欠損値を予測する。
D.
欠損値をゼロで置き換える。
Question 29

あなたはMLモデルのトレーニングパイプラインの設計と実装を担当するMLエンジニアです。TensorFlowモデルのためのエンドツーエンドのトレーニングパイプラインを作成する必要があります。このTensorFlowモデルは、数テラバイトの構造化データでトレーニングされます。パイプラインには、トレーニング前のデータ品質チェックと、トレーニング後デプロイ前のモデル品質チェックを含める必要があります。開発時間とインフラストラクチャ保守の必要性を最小限に抑えたいと考えています。トレーニングパイプラインをどのように構築し、オーケストレーションすべきですか?

A.
Kubeflow Pipelinesドメイン固有言語 (DSL) と事前定義されたGoogle Cloudコンポーネントを使用してパイプラインを作成します。パイプラインのオーケストレーションにはVertex AI Pipelinesを使用します。
B.
TensorFlow Extended (TFX) と標準TFXコンポーネントを使用してパイプラインを作成します。パイプラインのオーケストレーションにはVertex AI Pipelinesを使用します。
C.
Kubeflow Pipelinesドメイン固有言語 (DSL) と事前定義されたGoogle Cloudコンポーネントを使用してパイプラインを作成します。パイプラインのオーケストレーションにはGoogle Kubernetes EngineにデプロイされたKubeflow Pipelinesを使用します。
D.
TensorFlow Extended (TFX) と標準TFXコンポーネントを使用してパイプラインを作成します。パイプラインのオーケストレーションにはGoogle Kubernetes EngineにデプロイされたKubeflow Pipelinesを使用します。
Question 30

あなたは、トレーニングジョブを送信するためにクラウドベースのバックエンドシステムを使用しているデータサイエンティストのチームを管理しています。このシステムの管理が非常に困難になったため、代わりにマネージドサービスを使用したいと考えています。あなたが協力しているデータサイエンティストは、Keras、PyTorch、Theano、scikit-learn、およびカスタムライブラリを含む多くの異なるフレームワークを使用しています。どうすればよいでしょうか?

A.
Vertex AI Training を使用して、任意のフレームワークでトレーニングジョブを送信します。
B.
Google Kubernetes Engine 上で Kubeflow を設定し、TFJob を介してトレーニングジョブを送信します。
C.
Compute Engine 上に VM イメージのライブラリを作成し、これらのイメージを集中リポジトリに公開します。
D.
Slurm ワークロードマネージャーを設定して、クラウドインフラストラクチャで実行するようにスケジュールできるジョブを受信します。