Professional Machine Learning Engineer
あなたは、BigQueryテーブルに保存された訓練データセットを使用して、BigQuery MLの線形回帰モデルを開発しました。テーブルには毎分新しいデータが追加されます。Cloud SchedulerとVertex AI Pipelinesを使用して、毎時のモデル訓練を自動化し、そのモデルを直接推論に使用しています。特徴量前処理ロジックには、過去1時間に受信したデータに対する分位点バケット化とMinMaxスケーリングが含まれます。ストレージと計算のオーバーヘッドを最小限に抑えたいと考えています。どうすべきでしょうか?
あなたは、計算コストの高い前処理操作を必要とするデータセットでモデルをトレーニングしました。予測時にも同じ前処理を実行する必要があります。高スループットのオンライン予測のために、モデルを AI Platform にデプロイしました。どのアーキテクチャを使用すべきですか?
あなたはKerasを使用して回帰モデルを学習させるPythonモジュールを開発しました。同じモジュール内に、線形回帰とディープニューラルネットワーク(DNN)という2つのモデルアーキテクチャを開発しました。`training_method`引数を使用して2つの手法のいずれかを選択し、DNNでは`learning_rate`引数と`num_hidden_layers`引数を使用しています。Vertex AIのハイパーチューニングサービスを100トライアルの予算で使用する予定です。学習損失を最小化し、モデルのパフォーマンスを最大化するモデルアーキテクチャとハイパーパラメータの値を特定したいと考えています。どうすればよいでしょうか?
あなたは病院で働いています。必要な患者データを収集する承認を得て、患者の入院リスクスコアを計算するVertex AI表形式AutoMLモデルをトレーニングしました。あなたはそのモデルをデプロイしました。しかし、時間の経過とともに患者の人口統計が変化し、特徴量の相互作用が変わり、予測精度に影響を与える可能性があることを懸念しています。特徴量の相互作用が変化した場合にアラートを受け取り、予測における特徴量の重要度を理解したいと考えています。アラートのアプローチではコストを最小限に抑えたいと考えています。どうすべきでしょうか?
あなたは、標準TFXコンポーネントを使用してTensorFlow Extended (TFX) パイプラインを開発しています。このパイプラインにはデータ前処理ステップが含まれています。パイプラインが本番環境にデプロイされた後、BigQueryに保存されている最大100TBのデータを処理します。データ前処理ステップが効率的にスケールし、メトリクスとパラメータをVertex AI Experimentsに公開し、Vertex ML Metadataを使用してアーティファクトを追跡できるようにする必要があります。パイプラインの実行をどのように構成すべきですか?