Azure

リソース正常性を確認すると見えてくるパーソナライズされた障害情報

はじめに

Azureで障害が発生した場合にはAzure の状態を確認すると、障害の情報を得ることができます。しかし、それが利用しているサービスにどう影響しているのか詳細を知ることはできません。それを解消してくれるのがリソース正常性です。

Azure Resource Health の概要 - Azure Service Health | Microsoft Learn
Azure Resource Health の概要 - Azure Service Health | Microsoft Learn

Azure Resource Health が、Azure のリソースに影響を及ぼしているサービスの問題を診断したり、サポートを受けたりするときにどのように役立つかについて説明します。

docs.microsoft.com

実際に本サーバーに影響した可能性がある障害を確認してみたいと思います。

リソース正常性

仮想マシンをのメニューにリソース正常性があります。下記では上部に影響した可能性がある障害が表示されています。

クリックすると詳細を表示できます。

一覧が表示されます。

ちなみに全ての正常性を確認するにはサービス正常性から確認できます。

みるとモニター、Sentinelでも問題が起きていたことがわかります。

詳細を確認するとどのような問題が発生しているの確認できます。

確認すると影響したのはUbuntu 18.04であることがわかります。今回は特に影響がなかったということです。

リソース正常性では詳細を知ることができ根本原因も表示されます。特に、開始時刻と終了時刻に注目するとSLAに影響しているのも確認できます。

この情報をもとにサポートチケットを上げて返金の対応を行います。

まとめ

リソース正常性は常用する機能ではありませんが非常に重要な情報を示してくれます。また、アラートを設定することで情報収集に役立ちます。障害といえば、CPUが100%とかディスクの空きがないなど目先の障害に目が行きがちですが、Azureのリソース正常性も同様に監視し、リソースに影響範囲を確認し対応していくことが重要です。

-Azure
-