Professional Machine Learning Engineer
あなたは売上数値を予測する本番システムを構築し、管理しています。本番モデルは市場の変化に対応する必要があるため、モデルの精度は非常に重要です。本番環境にデプロイされて以来、モデルは変更されていませんが、モデルの精度は着実に低下しています。 モデルの精度が着実に低下している原因として、最も可能性が高い問題は何ですか?
あなたは、世界中の顧客に衣料品を販売する小売業者に勤務しています。あなたは、機械学習(ML)モデルが安全な方法で構築されるようにする任務を負っています。具体的には、モデルで使用される可能性のある機密性の高い顧客データを保護する必要があります。データサイエンスチームが使用している機密データを含む4つのフィールド(AGE(年齢)、IS_EXISTING_CUSTOMER(既存顧客か否か)、LATITUDE_LONGITUDE(緯度経度)、SHIRT_SIZE(シャツのサイズ))を特定しました。データサイエンスチームがトレーニング目的でデータを利用できるようにする前に、これらのデータに対して何をすべきですか?
あなたは雑誌出版社に勤務しており、顧客が年間購読を解約するかどうかを予測するタスクを担当しています。探索的データ分析において、毎年90%の個人が購読を更新し、わずか10%の個人が購読を解約することがわかりました。ニューラルネットワーク分類器を訓練した後、あなたのモデルは購読を解約する人々を99%の精度で予測し、購読を更新する人々を82%の精度で予測します。これらの結果をどのように解釈すべきですか?
あなたは、Parquetファイルに保存されたデータで訓練されたモデルを構築しました。データには、Google Cloud上でホストされているHiveテーブル経由でアクセスします。これらのデータをPySparkで前処理し、CSVファイルとしてCloud Storageにエクスポートしました。前処理後、モデルを訓練し評価するための追加のステップを実行します。このモデル訓練をKubeflow Pipelinesでパラメータ化したいと考えています。どうすべきでしょうか?
あなたは、自社のソーシャルメディアページへのユーザー投稿の感情を検出し、システム障害やバグを特定するためのMLモデルを開発しました。Pub/Subから取り込まれたデータに対してリアルタイム予測を提供するためにDataflowを使用しています。モデルのトレーニングイテレーションを複数回行い、実行ごとに最新の2つのバージョンを稼働させ続ける予定です。バージョン間でトラフィックを80:20の比率で分割し、最新モデルがトラフィックの大部分を受け取るようにしたいと考えています。パイプラインをできるだけシンプルに保ち、必要な管理を最小限に抑えたい場合、どうすべきでしょうか?