Professional Machine Learning Engineer

Question 261

あなたは、画像検索エンジンを開発しているオンライン小売企業に勤務しています。Google Cloud上にエンドツーエンドのMLパイプラインをセットアップし、画像に自社製品が含まれているかどうかを分類しています。近い将来に新製品がリリースされることを見越して、新しいデータをMLモデルに供給できるように、パイプラインに再トレーニング機能を設定しました。また、AI Platformの継続的評価サービスを使用して、モデルがテストデータセットに対して高い精度を維持できるようにしたいと考えています。どうすべきでしょうか?

A.
新しい製品が再トレーニングに組み込まれたとしても、元のテストデータセットは変更しない。
B.
新しい製品が再トレーニングに導入されたときに、新しい製品の画像でテストデータセットを拡張する。
C.
新しい製品が再トレーニングに導入されたときに、テストデータセットを新しい製品の画像に置き換える。
D.
評価メトリクスが事前に決定されたしきい値を下回ったときに、新しい製品の画像でテストデータセットを更新する。
Question 262

あなたは銀行に勤務しており、不正検出のためのランダムフォレストモデルを構築しています。あなたには取引データセットがあり、そのうち1%が不正取引として識別されています。どのデータ変換戦略が、あなたの分類器のパフォーマンスを向上させる可能性が高いですか?

A.
データをTFRecords形式で書き込む。
B.
すべての数値特徴量をZ正規化する。
C.
不正取引を10倍にオーバーサンプリングする。
D.
すべてのカテゴリ特徴量にワンホットエンコーディングを使用する。
Question 263

あなたは転移学習を使用して、事前学習済みのEfficientNetモデルに基づいた画像分類器をトレーニングしています。トレーニングデータセットには20,000枚の画像があり、モデルを1日に1回再トレーニングする予定です。インフラストラクチャのコストを最小限に抑える必要があります。どのプラットフォームコンポーネントと構成環境を使用すべきですか?

A.
4つのV100 GPUとローカルストレージを備えたDeep Learning VM。
B.
4つのV100 GPUとCloud Storageを備えたDeep Learning VM。
C.
V100 GPUノードプールとNFSサーバーを備えたGoogle Kubernetes Engineクラスタ。
D.
4つのV100 GPUとCloud Storageを使用するカスタムスケールティアを利用したAI Platform Trainingジョブ。
Question 264

データセットの探索的分析を行っている際に、カテゴリ特徴量Aが大きな予測力を持つものの、時々欠損していることがわかりました。どうすべきでしょうか?

A.
値の15%以上が欠損している場合は特徴量Aを削除します。それ以外の場合は、特徴量Aをそのまま使用します。
B.
特徴量Aの最頻値を計算し、それを使用して特徴量Aの欠損値を置き換えます。
C.
欠損値を、特徴量Aとピアソンの相関係数が最も高い特徴量の値で置き換えます。
D.
カテゴリ特徴量Aに欠損値のための追加のクラスを加えます。特徴量Aが欠損しているかどうかを示す新しいバイナリ特徴量を作成します。
Question 265

あなたは大手小売業者に勤務しており、顧客を購入習慣に基づいてセグメント化するよう依頼されました。全顧客の購入履歴はBigQueryにアップロードされています。いくつかの明確な顧客セグメントが存在する可能性があると考えていますが、その数は不明であり、彼らの行動における共通点もまだ理解できていません。最も効率的な解決策を見つけたいと考えています。どうすべきでしょうか?

A.
BigQuery MLを使用してk-meansクラスタリングモデルを作成します。BigQueryにクラスタ数を自動的に最適化させます。
B.
BigQueryテーブルを参照する新しいデータセットをDataprepに作成します。Dataprepを使用して各列内の類似性を特定します。
C.
Data Labeling Serviceを使用してBigQueryの各顧客レコードにラベルを付けます。AutoML Tablesを使用してラベル付けされたデータでモデルをトレーニングします。評価メトリクスを確認して、データに潜在的なパターンがあるかどうかを理解します。
D.
会社のマーケティングチームから顧客セグメントのリストを入手します。Data Labeling Serviceを使用して、そのリストに従ってBigQueryの各顧客レコードにラベルを付けます。Data Studioを使用してデータセット内のラベルの分布を分析します。