ひっそりと Azure 障害が発生し巻き込まれていた話 #リツイート直後のツイートを表示するやつ

Web ServiceAzure

2019年8月末ごろ、Azure のサーバーで運用している リツイート直後のツイートを表示するやつ が重いとの声がありましたが、ひっそりと Azure の障害が発生し、巻き込まれていました。

Azure の障害一覧には公開されていないようです。

こちらの不手際ではないですが、土曜早朝だったため、24時間サポート月額1万円を購入して緊急対応してもらったので、1万円のネタです。

確認した不具合のある動作

Azure ポータルで、App サービスの画面で

  • 「概要」の画面で平均応答時間などチャートが表示されていない
  • 「スケールアップ」の画面を開けず操作できない
  • 「スケールアウト」の画面でエラーが表示され操作できない
  • 「App Service プラン」の画面でエラーが表示されて参照できない
  • 「App Service の変更」の画面を開けず操作できない

といった不具合がありました。後の報告で、操作できないだけでなく、自動スケールアウトが動作していなかったため、Web サイトの応答が非常に遅くなる現象が起きていたと思われます。

原因

プラットフォームにおけるメンテナンス作業にて、サブスクリプションのリソース情報を、グローバル エンドポイントから、西日本のリージョン エンドポイントへ移行したとのこと。

※ 「リツイート直後のツイートを表示するやつ」は、西日本リージョンで稼働しています。

この移行における内部ロジックが原因で、一部のサブスクリプションにおいて、Azure Resource Management (ARM) のキャッシュが、一時的にシンクロされていない状況となり、実態としては存在するはずのリソースに対する API コールが、 HTTP Status Code 404 で失敗する状況となっていたとのこと。

このため、ポータルの画面表示が正常になされないという状況が発生したとのこと。さらに、設定しているオート スケーリングが機能しないといった事象も発生したとのこと。

対処内容

Azure Resource Management (ARM) が保持するキャッシュを更新することで、ポータルでの表示が正しく行われるようになったとのこと。

今後、移行における内部ロジックの修正を実施し、今後の移行作業については、この修正作業が完了してからのみ実施するので、今後同様の事象が発生することはないとのこと。