Professional Machine Learning Engineer

Question 236

あなたは、カスタマーサポートのメールを分類するモデルを開発しています。オンプレミスシステム上の小規模なデータセットを使用してTensorFlow Estimatorでモデルを作成しましたが、高いパフォーマンスを確保するために、大規模なデータセットを使用してモデルを学習させる必要が出てきました。モデルをGoogle Cloudに移植するにあたり、オンプレミスからクラウドへの移行を容易にするため、コードのリファクタリングとインフラストラクチャのオーバーヘッドを最小限に抑えたいと考えています。どうすべきでしょうか?

A.
AI Platform を使用して分散学習を行う。
B.
Dataproc 上にクラスタを作成して学習を行う。
C.
自動スケーリングを備えたマネージドインスタンスグループを作成する。
D.
Kubeflow Pipelines を使用して Google Kubernetes Engine クラスタで学習を行う。
Question 237

AI Platformを使用してTensorFlowでテキスト分類モデルを訓練しました。この訓練済みモデルを使用して、BigQueryに保存されているテキストデータに対してバッチ予測を行いたいと考えています。その際、計算オーバーヘッドを最小限に抑えるにはどうすればよいですか?

A.
モデルをBigQuery MLにエクスポートします。
B.
AI Platformにモデルをデプロイし、バージョン管理します。
C.
DataflowとSavedModelを使用してBigQueryからデータを読み取ります。
D.
Cloud Storage内のモデルの場所を指定して、AI Platformでバッチ予測ジョブを送信します。
Question 238

あなたは、データセットをクリーンアップし、Cloud Storageバケットに保存するパイプラインを開発したデータエンジニアリングチームと協力しています。あなたはMLモデルを作成し、新しいデータが利用可能になり次第、そのデータを使用してモデルを更新したいと考えています。CI/CDワークフローの一環として、Google Kubernetes Engine (GKE) 上でKubeflow Pipelinesトレーニングジョブを自動的に実行したいと考えています。このワークフローはどのように設計すべきですか?

A.
Dataflowでパイプラインを構成し、Cloud Storageにファイルを保存します。ファイルが保存された後、GKEクラスタでトレーニングジョブを開始します。
B.
App Engineを使用して、Cloud Storageに新しいファイルがないか継続的にポーリングする軽量なPythonクライアントを作成します。ファイルが到着次第、トレーニングジョブを開始します。
C.
Cloud Storageトリガーを設定し、ストレージバケットで新しいファイルが利用可能になったときにPub/Subトピックにメッセージを送信します。Pub/SubトリガーのCloud Functionを使用して、GKEクラスタでトレーニングジョブを開始します。
D.
Cloud Schedulerを使用して、ジョブを定期的にスケジュールします。ジョブの最初のステップで、Cloud Storageバケット内のオブジェクトのタイムスタンプを確認します。前回の実行以降に新しいファイルがない場合は、ジョブを中止します。
Question 239

Google Cloud上で構造化データのためのMLパイプラインを再構築したいと考えています。現在、PySparkを使用して大規模なデータ変換を行っていますが、パイプラインの実行に12時間以上かかっています。開発速度とパイプライン実行時間を短縮するために、サーバーレスツールとSQL構文を使用したいと考えています。生データは既にCloud Storageに移動済みです。速度と処理の要件を満たしながら、Google Cloudでパイプラインをどのように構築すべきですか?

A.
Data FusionのGUIを使用して変換パイプラインを構築し、その後データをBigQueryに書き込みます。
B.
PySparkをSparkSQLクエリに変換してデータを変換し、その後Dataprocでパイプラインを実行してデータをBigQueryに書き込みます。
C.
データをCloud SQLに取り込み、PySparkコマンドをSQLクエリに変換してデータを変換し、その後機械学習のためにBigQueryからのフェデレーションクエリを使用します。
D.
BigQuery Loadを使用してデータをBigQueryに取り込み、PySparkコマンドをBigQuery SQLクエリに変換してデータを変換し、その後変換結果を新しいテーブルに書き込みます。
Question 240

AI Platformを使用してMLモデルのハイパーパラメータをチューニングし、その後、最適化されたパラメータを使用してトレーニングを行う、エンドツーエンドのMLパイプラインが稼働しています。ハイパーチューニングが予想以上に時間がかかっており、後続のプロセスが遅延しています。チューニングジョブの効果を著しく損なうことなく高速化したいと考えています。どのアクションを実行すべきですか?(2つ選択)

A.
並列トライアル数を減らす。
B.
浮動小数点値の範囲を狭める。
C.
早期停止パラメータをTRUEに設定する。
D.
検索アルゴリズムをベイズ検索からランダム検索に変更する。
E.
後続のトレーニングフェーズでの最大トライアル数を減らす。