Professional Machine Learning Engineer
あなたは、カスタマーサポートのメールを分類するモデルを開発しています。オンプレミスシステム上の小規模なデータセットを使用してTensorFlow Estimatorでモデルを作成しましたが、高いパフォーマンスを確保するために、大規模なデータセットを使用してモデルを学習させる必要が出てきました。モデルをGoogle Cloudに移植するにあたり、オンプレミスからクラウドへの移行を容易にするため、コードのリファクタリングとインフラストラクチャのオーバーヘッドを最小限に抑えたいと考えています。どうすべきでしょうか?
AI Platformを使用してTensorFlowでテキスト分類モデルを訓練しました。この訓練済みモデルを使用して、BigQueryに保存されているテキストデータに対してバッチ予測を行いたいと考えています。その際、計算オーバーヘッドを最小限に抑えるにはどうすればよいですか?
あなたは、データセットをクリーンアップし、Cloud Storageバケットに保存するパイプラインを開発したデータエンジニアリングチームと協力しています。あなたはMLモデルを作成し、新しいデータが利用可能になり次第、そのデータを使用してモデルを更新したいと考えています。CI/CDワークフローの一環として、Google Kubernetes Engine (GKE) 上でKubeflow Pipelinesトレーニングジョブを自動的に実行したいと考えています。このワークフローはどのように設計すべきですか?
Google Cloud上で構造化データのためのMLパイプラインを再構築したいと考えています。現在、PySparkを使用して大規模なデータ変換を行っていますが、パイプラインの実行に12時間以上かかっています。開発速度とパイプライン実行時間を短縮するために、サーバーレスツールとSQL構文を使用したいと考えています。生データは既にCloud Storageに移動済みです。速度と処理の要件を満たしながら、Google Cloudでパイプラインをどのように構築すべきですか?
AI Platformを使用してMLモデルのハイパーパラメータをチューニングし、その後、最適化されたパラメータを使用してトレーニングを行う、エンドツーエンドのMLパイプラインが稼働しています。ハイパーチューニングが予想以上に時間がかかっており、後続のプロセスが遅延しています。チューニングジョブの効果を著しく損なうことなく高速化したいと考えています。どのアクションを実行すべきですか?(2つ選択)