雨のち天晴れ

明日の作業というのが「Windows 2000 Advanced Serverのクラスタを組んでいるデータ総量1TBぐらいのファイルサーバのディスククォータソフトウェアをローリングアップデートでバージョンアップして、直後にそのクラスタのファイルサーバをNTドメイン環境からActive Directoryネイティブ環境にローリングアップデートで移して、NTドメインアカウントでファイルサーバに構成している共有アクセス権とNTFSアクセス権をActive Directoryに作成してある代替アカウントへと丸ごと置き換える」というものなんです。
プロジェクトマネージングが僕、プロジェクトリーディングが僕、プランニングが僕、作業が僕。チェックが僕。マネージングもリーディングもプランニングも必要ねーよというひとりプロジェクト状態で、頭の中に手順が入っていれば別にドキュメントなんか必要ないわけです。しかし何か障害が発生した場合ドキュメントが何もないと「おまえ何も考えずにがっつんがっつん作業しただろ」と責められること請け合いなので、作業前日に新幹線の中でもDual Vocal Wave!!を聞きながらひたすらキーボードを叩いてドキュメント作成にいそしむことになりました。
あれをしてその次はこれをしてという作業手順書がメインで、それも言い訳のためのドキュメントなので作業途中で発声するかもしれないと考えている障害とそれへの対策を記述するのがメインなわけです。成功したら次へ、失敗したら障害回復と現状復帰の手順へ進む、その手順はこれこれで、この基準をクリアしたら復帰。そんな感じでフローを分岐させていくわけです。で、どこで何が起こってもこれこれの対策を考えていましたよ、といういいわけのためのドキュメント。もうなんか、書き出した瞬間から疲れるようなものなんです。
いくつかの判断ポイントを設けて、あるポイントまでたどり着いたらこれこれの確認を実施、満たしたら成功、そうでなければ失敗。始めのうちのポイントで失敗する分には、復帰手順も単純かつ簡単。で、徹夜明けまでいくつかポイントがあって、だんだんと復帰手順が複雑かつ難解になっていくわけですね。頭の中では考えていたものの、実際文字にしてしまうとドンドンどんよりしてくるものです。
で、最終判断ポイントまで書き進めましてですね、ここでコケたばあいの最悪の復帰手順というのが、

システムディスクのリカバリ用イメージデータをクラスタ両ノードともローリングダウングレード(などと言う言葉があるかどうかはわからないが手順としてはローリングで)全戻し。データディスクのフルバックアップデータをテープから全戻し。フルバックアップ後に取得しているインクリメンタルバックアップデータを月〜木4日分テープから全戻し。予定復帰完了三日間以上

どっかから同じ規格のディスクを持ってきて、最初にシステムディスク(RAID 0+1)の片方を引っこ抜いて持ってきたディスクを挿してですね、障害が起きたら取っておいたディスクを突っ込んで起動させるほうが簡単じゃないかと思ったり。でも復旧時間のほとんどを占める予定のデータディスクは72GB*5のRAID5が5セットだし…
アハハって感じ?! 楽勝?だよね
泣いても笑っても72時間以上なら ゲッソリ苦しもう! って感じ。

追記:いろいろ大変そうに書いてますが、見る人が見れば別に大した技術は必要ない作業なわけです。プロジェクトがどうのこうのといっても(いや実際はこの他にも50台ぐらいのサーバが含まれているのだけれどそれも含めて)「まあ、やっといてよ」といわれたというような仕事だったりする。結局のところこの手の作業というのは、技術力というよりも雑多な障害を予想する力とか障害発生時の対人交渉力(助けを求める人を探しておく、ユーザーサイドをなんとかなだめる)とかいうところに時間と労力がかかるのだ。技術力がいまいちである分そういうところをなんとかして作業を流すというのもまあアリというわけで、僕は多分そういう方向でやっていくのだろうなと思ったり。いやほんと、作業そのものは簡単です。何も起こらなければ。