Professional Machine Learning Engineer

Question 56

最近、あるMLモデルをデプロイしました。デプロイから3ヶ月後、モデルが特定のサブグループにおいて性能が低いことに気づきました。これは、偏った結果につながる可能性があります。この不公平な性能は、訓練データにおけるクラスの不均衡が原因であると疑っていますが、追加のデータを収集することはできません。どうすべきですか?(2つ選択)

A.
性能の高いサブグループの訓練例を削除し、モデルを再訓練する。
B.
少数派クラスでのエラーに対してモデルにより大きなペナルティを課す追加の目的関数を追加し、モデルを再訓練する。
C.
多数派クラスと最も高い相関を持つ特徴量を削除する。
D.
既存の訓練データをアップサンプリングまたは再重み付けし、モデルを再訓練する。
E.
モデルを再デプロイし、ユーザーにモデルの振る舞いを説明するラベルを提供する。
Question 57

あなたは、様々なソースからの画像を低レイテンシで処理するMLトレーニングモデル用の入力パイプラインを開発するよう依頼されました。入力データがメモリに収まらないことが判明しました。Googleが推奨するベストプラクティスに従ってデータセットを作成するには、どうすればよいですか?

A.
tf.data.Dataset.prefetch変換を作成する。
B.
画像をtf.Tensorオブジェクトに変換し、次にDataset.from_tensor_slices()を実行する。
C.
画像をtf.Tensorオブジェクトに変換し、次にtf.data.Dataset.from_tensors()を実行する。
D.
画像をTFRecordに変換し、画像をCloud Storageに保存し、次にtf.data APIを使用してトレーニング用の画像を読み取る。
Question 58

あなたは、スキャンされた機密文書の画像に会社のロゴが含まれているかどうかを検出する二値分類MLアルゴリズムに取り組んでいます。データセットでは、96%のサンプルにロゴが含まれておらず、データセットは非常に不均衡(偏っている)です。どの評価指標が、あなたのモデルに対して最も信頼性を与えるでしょうか?

A.
適合率 (Precision)
B.
再現率 (Recall)
C.
RMSE (二乗平均平方根誤差)
D.
F1スコア
Question 59

Vertex AIでモデルトレーニングパイプラインを実行中、評価ステップがメモリ不足エラーで失敗していることが判明しました。現在、評価ステップにはTensorFlow Model Analysis (TFMA) を標準のTensorFlow Extended (TFX) Evaluatorパイプラインコンポーネントと共に使用しています。評価品質を低下させることなく、インフラストラクチャのオーバーヘッドを最小限に抑えながらパイプラインを安定させたいと考えています。どうすればよいですか?

A.
`beam_pipeline_args` に `-runner=DataflowRunner` フラグを含めて、評価ステップをDataflowで実行する。
B.
評価ステップをパイプラインから外し、十分なメモリを持つカスタムCompute Engine VMで実行する。
C.
パイプラインをGoogle Kubernetes Engine (GKE) でホストされるKubeflowに移行し、評価ステップに適切なノードパラメータを指定する。
D.
`tfma.MetricsSpec()` を追加して、評価ステップのメトリクスの数を制限する。
Question 60

あなたは、カテゴリカルな入力変数を持つデータセットを使用してMLモデルを開発しています。データをランダムに半分に分割し、訓練セットとテストセットを作成しました。訓練セットのカテゴリカル変数にワンホットエンコーディングを適用した後、テストセットに(訓練セットには存在した)カテゴリカル変数のカテゴリの1つが欠損していることが判明しました。どうすべきでしょうか?

A.
テストセットで疎な表現を使用する。
B.
データをランダムに再分配し、訓練セットに70%、テストセットに30%を割り当てる。
C.
テストデータのカテゴリカル変数にワンホットエンコーディングを適用する。
D.
すべてのカテゴリを代表するデータをさらに収集する。