Professional Machine Learning Engineer
最近、あるMLモデルをデプロイしました。デプロイから3ヶ月後、モデルが特定のサブグループにおいて性能が低いことに気づきました。これは、偏った結果につながる可能性があります。この不公平な性能は、訓練データにおけるクラスの不均衡が原因であると疑っていますが、追加のデータを収集することはできません。どうすべきですか?(2つ選択)
あなたは、様々なソースからの画像を低レイテンシで処理するMLトレーニングモデル用の入力パイプラインを開発するよう依頼されました。入力データがメモリに収まらないことが判明しました。Googleが推奨するベストプラクティスに従ってデータセットを作成するには、どうすればよいですか?
あなたは、スキャンされた機密文書の画像に会社のロゴが含まれているかどうかを検出する二値分類MLアルゴリズムに取り組んでいます。データセットでは、96%のサンプルにロゴが含まれておらず、データセットは非常に不均衡(偏っている)です。どの評価指標が、あなたのモデルに対して最も信頼性を与えるでしょうか?
Vertex AIでモデルトレーニングパイプラインを実行中、評価ステップがメモリ不足エラーで失敗していることが判明しました。現在、評価ステップにはTensorFlow Model Analysis (TFMA) を標準のTensorFlow Extended (TFX) Evaluatorパイプラインコンポーネントと共に使用しています。評価品質を低下させることなく、インフラストラクチャのオーバーヘッドを最小限に抑えながらパイプラインを安定させたいと考えています。どうすればよいですか?
あなたは、カテゴリカルな入力変数を持つデータセットを使用してMLモデルを開発しています。データをランダムに半分に分割し、訓練セットとテストセットを作成しました。訓練セットのカテゴリカル変数にワンホットエンコーディングを適用した後、テストセットに(訓練セットには存在した)カテゴリカル変数のカテゴリの1つが欠損していることが判明しました。どうすべきでしょうか?