Microsoft Azureにやられた、、、
仕事上、試験的立ち上げているサービスについては、コストの面からMicrosoft Azureを使っているのだが、本日、そのサービスに繋がらないのでログインしてみると、ドライブ全体が読み取り専用になっておて、すべてのサービスが起動しない状態になっていた。(Azure上に構築している仮想マシンは、CentOS)
dmesgや/var/log/message を確認したところ、 案の定ファイルシステム(ext4)が壊れた模様。大して利用していないサービスにも関わらずファイルシステムが壊れるとは、一体全体なぜ...?
Azureの冗長化の仕組みなど調査が必要だと思うが、まずはサービスの復旧が優先。
1)fsck の実行
2)別サーバーにて再構築
1は、手っ取り早いが、最悪まったく動かくなくなる可能性あり。2は、/から読み取り専用になっているので、データの移動ができない状態で吸い上げなければならない。かつ、DataBaseについては、dumpをとらずにデータファイルの移動だけで再構築を行わなければならない状況。
幸いにも、mountしているディスクで壊れていない領域があり、移動が必要なファイルを圧縮しながらコピーすることが可能だったので、2を選択。
新しく仮想マシンを立ち上げ、環境を構築することに成功!
DBはPostgresだったが、以外とデータファイルのコピーだけでリストアできるのね。
今回は、仮想マシンへのログインができた&壊れていない領域があった、ということで新しい環境への移行を行うことができたが、正直、運が良かったと言わざるをえないだろう。
度々Azureはサービスダウンやリブートが起きるようだが、自分たちの使い方が悪いのか、理解が足りていないのか?まだまだ安心してお客様に案内できるレベルではない。一度、Microsoftのセミナーに参加して詳細を学ぶべきなのだろう。