Professional Cloud DevOps Engineer

Question 167

あなたは、ユーザーに深刻な影響を与えたインシデントに関する事後検証報告書を作成しています。将来、同様のインシデントを防ぎたいと考えています。事後検証報告書に含めるべきセクションは、次のうちどれですか?(2つ選択)

A.
インシデントの根本原因の説明。
B.
インシデントを引き起こした責任のある従業員のリスト
C.
インシデントの再発を防ぐためのアクションアイテムのリスト
D.
過去のインシデントと比較した、インシデントの深刻度に関するあなたの意見
E.
インシデントの影響を受けたすべてのサービスの設計ドキュメントのコピー
Question 168

あなたは、Webベースアプリケーションの新機能を本番環境にデプロイする準備ができています。Google Kubernetes Engine (GKE) を使用して、WebサーバーPodの半分に段階的なロールアウトを実行したいと考えています。 どうすべきですか?

A.
パーティション分割ローリングアップデートを使用する。
B.
NoExecuteを指定したノードテイントを使用する。
C.
デプロイメント仕様でレプリカセットを使用する。
D.
並列Pod管理ポリシーを持つステートフルセットを使用する。
Question 169

あなたは、高トラフィックのエンタープライズアプリケーションの信頼性について責任を負っています。多数のユーザーから、アプリケーションの機能の重要なサブセットであるデータ集約型のレポート機能が、HTTP 500エラーで一貫して失敗しているとの報告があります。アプリケーションのダッシュボードを調査したところ、この障害と、レポート生成に使用される内部キューのサイズを表すメトリクスとの間に強い相関があることに気づきました。障害の原因を追跡した結果、レポートバックエンドが高いI/O待機時間を経験していることが判明しました。バックエンドの永続ディスク(PD)のサイズを変更することで、この問題を迅速に修正しました。ここで、レポート生成機能の可用性サービスレベル指標(SLI)を作成する必要があります。どのように定義しますか?

A.
すべてのレポート生成バックエンドにわたるI/O待機時間の集計値として
B.
成功した応答をもたらすレポート生成リクエストの割合として
C.
既知の正常なしきい値と比較した、アプリケーションのレポート生成キューのサイズとして
D.
既知の正常なしきい値と比較した、レポートバックエンドPDのスループット容量として
Question 170

あなたはGoogle Kubernetes Engine (GKE) で実行されているアプリケーションを持っています。そのアプリケーションはリクエストごとに複数のサービスを呼び出しますが、応答が遅すぎます。どのダウンストリームサービスまたはサービス群が遅延の原因となっているかを特定する必要があります。何をすべきですか?

A.
リクエストの経路に沿ってVPCフローログを分析する。
B.
各サービスのLivenessプローブとReadinessプローブを調査する。
C.
リアルタイムでサービスメトリクスを分析するためにDataflowパイプラインを作成する。
D.
OpenTelemetryやStackdriver Traceのような分散トレーシングフレームワークを使用する。
Question 171

あなたは障害に関するポストモーテムでアクションアイテムを作成し、割り当てています。障害は収束しましたが、根本原因に対処する必要があります。あなたは、チームがアクションアイテムを迅速かつ効率的に処理できるようにしたいと考えています。アクションアイテムに担当者と協力者をどのように割り当てるべきですか?

A.
各アクションアイテムに1人の担当者と、必要な協力者を割り当てます。
B.
チームがアイテムに迅速に対処することを保証するために、各アイテムに複数の担当者を割り当てます。
C.
ポストモーテムを非難のないものにするために、アイテムに協力者を割り当てますが、個々の担当者は割り当てません。
D.
SREチームの責任者であるため、チームリーダーをすべてのアクションアイテムの担当者として割り当てます。