Professional Machine Learning Engineer
あなたは新しい動画ストリーミングプラットフォームを開発している会社に勤務しています。ユーザーが次に視聴する動画を提案する推薦システムを作成するよう依頼されました。AI倫理チームによるレビューの結果、開発を開始することが承認されました。あなたの会社のカタログにある各動画アセットには有用なメタデータ(例:コンテンツタイプ、リリース日、国)がありますが、過去のユーザーイベントデータはありません。製品の最初のバージョンでは、どのように推薦システムを構築すべきですか?
あなたは最近、自動運転車向けの画像セグメンテーションモデルの最初のバージョンを構築しました。モデルをデプロイした後、AUC(曲線下面積)メトリックの低下が観察されました。ビデオ録画を分析すると、交通量が少ない状況ではモデルは期待通りに動作するものの、非常に混雑した交通状況では失敗することも発見しました。この結果の最も可能性の高い理由は何ですか?
あなたは住宅価格を予測するための機械学習モデルを開発しています。データ準備中に、重要な予測変数である「最寄りの学校からの距離」がしばしば欠損しており、かつ分散が高くない(値のばらつきが少ない)ことに気づきました。データ内のすべてのインスタンス(行)は重要です。この欠損データをどのように処理すべきですか?
あなたはMLモデルのトレーニングパイプラインの設計と実装を担当するMLエンジニアです。TensorFlowモデルのためのエンドツーエンドのトレーニングパイプラインを作成する必要があります。このTensorFlowモデルは、数テラバイトの構造化データでトレーニングされます。パイプラインには、トレーニング前のデータ品質チェックと、トレーニング後デプロイ前のモデル品質チェックを含める必要があります。開発時間とインフラストラクチャ保守の必要性を最小限に抑えたいと考えています。トレーニングパイプラインをどのように構築し、オーケストレーションすべきですか?
あなたは、トレーニングジョブを送信するためにクラウドベースのバックエンドシステムを使用しているデータサイエンティストのチームを管理しています。このシステムの管理が非常に困難になったため、代わりにマネージドサービスを使用したいと考えています。あなたが協力しているデータサイエンティストは、Keras、PyTorch、Theano、scikit-learn、およびカスタムライブラリを含む多くの異なるフレームワークを使用しています。どうすればよいでしょうか?