Professional Cloud DevOps Engineer
あなたがサポートしている本番システムで多数の障害が発生しています。全ての障害に対してアラートが通知され、夜中に起こされてしまいます。これらのアラートは、1分以内に自動的に再起動される不健全なシステムが原因です。あなたは、サイト信頼性エンジニアリング(SRE)の実践に従いながら、スタッフの燃え尽きを防ぐためのプロセスを確立したいと考えています。何をすべきでしょうか?
あなたは、複数ステップのCloud Buildパイプラインを使用してアプリケーションをビルドし、Google Kubernetes Engine (GKE) にデプロイしています。ビルド情報をWebhookにHTTP POSTすることで、サードパーティの監視プラットフォームと連携したいと考えています。開発工数を最小限に抑えたい場合、どうすべきですか?
eコマースアプリケーションをGoogle Cloud Platform (GCP) に移行しました。来るべき繁忙期に向けてアプリケーションを準備したいと考えています。繁忙期に備えるために、まず何をすべきですか?
あなたは、App Engine上で実行され、データストレージとしてCloud SQLとCloud Storageを使用するウェブアプリケーションをサポートしています。ウェブサイトのトラフィックが短期間急増した後、すべてのユーザーリクエストでレイテンシが大幅に増加し、CPU使用率とアプリケーションを実行するプロセス数も増加していることに気づきました。初期のトラブルシューティングで以下のことが明らかになりました。 ✑ トラフィックの初期急増後、負荷レベルは通常に戻りましたが、ユーザーは依然として高いレイテンシを経験しています。 ✑ Cloud SQLデータベースからのコンテンツリクエストとCloud Storageからの画像リクエストで、同様に高いレイテンシが見られます。 ✑ レイテンシが増加した時期にウェブサイトへの変更は行われていません。 ✑ ユーザーへのエラー数は増加していません。 今後数日で再びウェブサイトのトラフィックが急増すると予想しており、ユーザーがレイテンシを経験しないようにしたいと考えています。どうすべきでしょうか?
あなたのアプリケーションはGoogle Cloud Platform (GCP) 上で実行されています。GCPへのアプリケーションリリースのデプロイにJenkinsを実装する必要があります。リリースプロセスを効率化し、運用負荷を軽減し、ユーザーデータを安全に保ちたいと考えています。どうすべきでしょうか?