Professional Machine Learning Engineer
あなたは自動車会社のAIチームに所属しており、TensorFlowとKerasを使用して視覚的な欠陥検出モデルを開発しています。モデルのパフォーマンスを向上させるために、平行移動、トリミング、コントラスト調整などの画像拡張機能を組み込みたいと考えています。これらの機能は、各トレーニングバッチにランダムに適用します。実行時間と計算リソースの使用率に関して、データ処理パイプラインを最適化したいと考えています。どうすればよいですか?
あなたは、5000万人以上の読者にニュース記事を配信するオンライン出版社に勤務しています。あなたは、同社の週刊ニュースレター向けのコンテンツを推薦するAIモデルを構築しました。推薦が成功したとみなされるのは、ニュースレターの発行日から2日以内に記事が開封され、かつユーザーがそのページに少なくとも1分間滞在した場合です。 成功指標の計算に必要なすべての情報はBigQueryにあり、1時間ごとに更新されます。モデルは8週間のデータでトレーニングされ、平均して5週間後にその性能が許容可能なベースラインを下回ります。トレーニング時間は12時間です。あなたは、コストを最小限に抑えつつ、モデルの性能が許容可能なベースラインを上回るようにしたいと考えています。再トレーニングが必要な時期を判断するために、どのようにモデルを監視すべきですか?
1年前にMLモデルを本番環境にデプロイしました。毎月、前月にモデル予測サービスに送信されたすべての生のリクエストを収集しています。これらのリクエストの一部を人手によるラベリングサービスに送り、モデルのパフォーマンスを評価しています。1年後、モデルのパフォーマンスがある月は1ヶ月で大幅に低下する一方、他の月ではパフォーマンスの低下に気づくまでに数ヶ月かかることがあることに気づきました。ラベリングサービスは高コストですが、大幅なパフォーマンス低下も避ける必要があります。コストを最小限に抑えながら高レベルのパフォーマンスを維持するために、モデルをどれくらいの頻度で再学習すべきかを決定したいと考えています。どうすべきでしょうか?
あなたは、大手映画館チェーンのチケット発行プラットフォームを管理する会社に勤務しています。顧客はモバイルアプリを使用して、興味のある映画を検索し、アプリ内でチケットを購入します。チケット購入リクエストはPub/Subに送信され、以下のステップを実行するように設定されたDataflowストリーミングパイプラインで処理されます。 1. 選択された映画館での映画チケットの空き状況を確認します。 2. チケット価格を割り当て、支払いを受け付けます。 3. 選択された映画館でチケットを予約します。 4. 購入成功情報をデータベースに送信します。 このプロセスの各ステップには、低レイテンシ要件(50ミリ秒未満)があります。あなたはBigQuery MLを使用して、無料ポップコーンのプロモーションコードを提供することがチケット購入の可能性を高めるかどうかを予測するロジスティック回帰モデルを開発しました。この予測をチケット購入プロセスに追加する必要があります。あなたはこのモデルを本番環境にデプロイする最も簡単な方法を特定し、かつレイテンシの追加を最小限に抑えたいと考えています。どうすべきでしょうか?
あなたはサーバーメンテナンスを担当するデータセンターのチームに所属しています。経営陣は、監視データを使用して潜在的なサーバー障害を検出する予知保全ソリューションの構築をあなたに求めています。インシデントデータはまだラベル付けされていません。最初に何をすべきですか?