Professional Cloud DevOps Engineer
あなたは、ユーザーに深刻な影響を与えたインシデントに関する事後検証報告書を作成しています。将来、同様のインシデントを防ぎたいと考えています。事後検証報告書に含めるべきセクションは、次のうちどれですか?(2つ選択)
あなたは、Webベースアプリケーションの新機能を本番環境にデプロイする準備ができています。Google Kubernetes Engine (GKE) を使用して、WebサーバーPodの半分に段階的なロールアウトを実行したいと考えています。 どうすべきですか?
あなたは、高トラフィックのエンタープライズアプリケーションの信頼性について責任を負っています。多数のユーザーから、アプリケーションの機能の重要なサブセットであるデータ集約型のレポート機能が、HTTP 500エラーで一貫して失敗しているとの報告があります。アプリケーションのダッシュボードを調査したところ、この障害と、レポート生成に使用される内部キューのサイズを表すメトリクスとの間に強い相関があることに気づきました。障害の原因を追跡した結果、レポートバックエンドが高いI/O待機時間を経験していることが判明しました。バックエンドの永続ディスク(PD)のサイズを変更することで、この問題を迅速に修正しました。ここで、レポート生成機能の可用性サービスレベル指標(SLI)を作成する必要があります。どのように定義しますか?
あなたはGoogle Kubernetes Engine (GKE) で実行されているアプリケーションを持っています。そのアプリケーションはリクエストごとに複数のサービスを呼び出しますが、応答が遅すぎます。どのダウンストリームサービスまたはサービス群が遅延の原因となっているかを特定する必要があります。何をすべきですか?
あなたは障害に関するポストモーテムでアクションアイテムを作成し、割り当てています。障害は収束しましたが、根本原因に対処する必要があります。あなたは、チームがアクションアイテムを迅速かつ効率的に処理できるようにしたいと考えています。アクションアイテムに担当者と協力者をどのように割り当てるべきですか?