Azure Site Recoveryを活用した安全なDR切替訓練の実施
【実施の背景】
従来、Windows ServerのHyper-Vレプリカを用いてDR(Disaster Recovery)環境を構築していましたが、Microsoft Azureへの移行に伴い、Azure Site Recovery(ASR)を活用したDR方式へ変更することになりました。 この変更により、災害発生時の切替時間や、切替後の運用の安定性に不安が生じました。また、本番環境を使用したDR切替訓練にはリスクが伴うため、安全に訓練を実施する方法が求められました。

課題
- メンテナンス時間内にすべてのテストを完了させる必要がある。
- 本番環境のデータを変更せずに訓練を実施する必要がある。
- 確実に元の状態に戻せる保証が求められる。
解決策
本番環境の保全
- 訓練前に本番環境のバックアップを取得し、オペレーションミスに備えました。
- DR環境から本番環境への切り戻し時には、データの逆同期を行わない計画としました。
切替訓練のタイムマネジメント
- 切替訓練は、全担当者と管理者がリアルタイムで進捗を確認できるチャットを活用し、タイムチャートとの 差異を管理しました。
- 切替訓練は計画された予定時間を30分以上前倒しで完了し、本番稼働にも影響を与えませんでした。
手順の精緻化と関係者との認識のすり合わせ
- 各担当の作業の前後関係(依存関係)を明確にし、連携ミスを防止しました。
- 依存関係がある作業は手順上に明記し、後続作業担当は作業開始時間になっても前提作業担当から連絡がな い場合には確認する手順としました。
【特別な取り組み】
情シスBチームとして、AzureサービスおよびAzure Site Recovery技術の豊富なノウハウを活用し、想定外の事態にも対応可能な2重、3重のバックアッププランを用意しました。作業においてはスクリプトによる自動化を推進しましたが、スクリプトのパラメータミスによるトラブルを防ぐため、最終的には人の確認を重視し、最悪のケースを想定した作業の重要度に応じた掘り下げを行いました。