Professional Cloud DevOps Engineer
あなたは、多数の依存システムを持つインフラストラクチャサービスのオンコール担当です。サービスがリクエストの大部分を処理できず、数十万人のユーザーを抱える全ての依存システムが影響を受けているというアラートを受信しました。サイト信頼性エンジニアリング(SRE)のインシデント管理プロトコルの一環として、あなたは自身をインシデントコマンダー(IC)とし、チームから経験豊富な2名をオペレーションリード(OL)およびコミュニケーションリード(CL)として任命しました。次に何をすべきでしょうか?
あなたは、Stackdriver ワークスペースを使用して本番環境の Google Cloud Platform (GCP) プロジェクトを監視するための戦略を策定しています。要件の1つは、開発プロジェクトやステージングプロジェクトからの誤ったアラートなしに、本番環境の問題を迅速に特定し対応できることです。関連するチームメンバーに Stackdriver ワークスペースへのアクセス権を付与する際には、最小権限の原則を確実に遵守したいと考えています。どうすべきでしょうか?
現在、仮想マシン(VM)の利用ログをStackdriverに保存しています。リアルタイムで更新され、四半期ごとに集計された情報を含む、共有しやすいインタラクティブなVM利用状況ダッシュボードを提供する必要があります。Google Cloud Platformのソリューションを使用したいと考えています。どうすればよいですか?
あなたは、ビジネスクリティカルなワークロードを、数ヶ月間にわたり固定された一連のCompute Engineインスタンスで実行する必要があります。ワークロードは安定しており、割り当てられたリソース量は正確です。パフォーマンスに影響を与えることなく、このワークロードのコストを削減したいと考えています。どうすべきでしょうか?
あなたはSREのプラクティスと原則に従う組織の一員です。あなたは開発チームから新しいサービスの管理を引き継ぎ、本番稼働準備レビュー(PRR)を実施しています。PRRの分析フェーズの後、そのサービスが現在、サービスレベル目標(SLO)を達成できないと判断しました。あなたはそのサービスが本番環境でSLOを達成できるようにしたいと考えています。次に何をすべきですか?