次回予告

申し訳ないです。通常業務に復帰するととんでもないことになっていました。僕が必死で対処していると、上司(34)が「いや今トイレに行ってきたんだけどさ、便器の名前が「ピュアホワイト」でさ、一瞬「キュアホワイト」かと思ってどきどきしちゃった。いつもより余計に出た。やっぱりホワイトだよな。ぐはははは」とわけのわからないことを僕へ報告しに来た。顔がつやつやとしている。「そういう趣味ですか!」と大喝しておいた。つか、それは商品名ではなくてカラーバリエーション名だっつーの(INAX リラステージPita)。

  1. メールサーバの電源異常
  2. ファイルサーバのファイバーチャネルボード故障
  3. Oracleバックアップアプリケーション破損
  4. OpenVMSバックアップオペレーションミス(by部下君)
  5. ファイルサーババックアップテープからのファイルリストアオペレーションミス(by部下君)

と、まるで僕が襲来する貧乏神のように一日でこれらのインシデントが全部発生しました。これらへの対応はITIL的にはふたつのプロセスに分類される。

  • インシデント管理プロセス:ユーザー業務継続を最優先課題とする。原因の特定にこだわらず、インシデントを回避するワークアラウンド(Workaround)を利用してとにかく業務プロセスの再開を最優先する。業務プロセスの再開をもってインシデントをクローズする。問題(Problem)が残っている場合はバックグラウンドで問題を解決するため、問題管理プロセスを起動する。
  • 問題管理プロセス:問題(Problem)の根本原因(Unknown Real Cause)を特定する。特定された根本原因をフィクスする。また根本原因を既知のエラー(Known Error)として既知エラーデータベース(KEDB; Known Error DataBase)に記録し、再利用可能な事例集とする。

このふたつのプロセスは別々の部署で担当しても良いし、同じ部署でも良い。ITILは組織論ではないので、その辺は組織の大きさによって都合する。しかし重要なことは、各プロセスが独立して機能するということであり、それは各プロセスがマネジメントされているかどうかということだ。分かりやすく言えば、各プロセスにマネージャーがAssignされているかどうかということだ。ということで5つのインシデントについてインシデント管理プロセスと問題管理プロセスのActivityを述べてみると、

  • (凡例)インシデント内容:インシデント管理プロセス:問題管理プロセス
  1. メールサーバの電源異常:冗長電源のひとつがFaulureステータスとなっていた。もうひとつが正常動作を続けていたので業務プロセスへのインパクトはゼロ。クローズ:電源以外にはステータス異常がない、また電源もとりあえず見かけ上はまた正常動作に戻っているので様子見。
  2. ファイルサーバのファイバーチャネルボード故障:クラスタの片割れだったので、オンタイムでもう片方にリソースがフェイルオーバーした。業務プロセスへのインパクトは2秒ぐらいだった。運用担当者に報告してクローズ:ファイバーチャネルボード交換で解決
  3. Oracleバックアップアプリケーション破損:バックアップ不能継続、業務プロセスについては通常業務であればインパクトなしだが、バックアップデータが必要になればクリティカルなインパクトとなる。ユーザー(システム管理責任者)に状況を報告。継続中:ベンダーサポート待ち
  4. OpenVMSバックアップオペレーションミス(by部下君):バックアップ不能一日間、業務プロセスについては通常業務であればインパクトなしだが、当日のバックアップデータが必要になればクリティカルなインパクトとなる。運用担当者に謝りクローズ:翌日バックアップ復帰。ヒューマンエラーなのでオペレーションを見直す
  5. ファイルサーババックアップテープからのファイルリストアオペレーションミス(by部下君):バックアップデータ損失、業務プロセスについては通常業務であればインパクトなしだが、損失期間中のバックアップデータが必要になればクリティカルなインパクトとなる。運用担当者に謝りクローズ:翌日フルバックアップ取得開始。ヒューマンエラーなのでオペレーションを見直す

とまあそういうことになっていて、22時ごろまでインシデント管理プロセスと問題管理プロセスの両方にいそしんでました。つーかオペレーションミスはどうなんだ部下君よ。一応上司の職責があるし部下に責任をかぶせるのは嫌なので俺が首を切られるのは覚悟するが、失われたデータは戻らないんだぞ。それでユーザーさんの業務が継続不能になったら、俺だけでは済まないぞ。どこまでの人にどれぐらいの責任が生じるかも見積もれないぞ。
俺が今になってもサーバオペレーションを指差し確認しながら(特にクリティカルなコマンド投入の瞬間には立会人さえ無理矢理引っ張ってきて)ミスしないようにやっているのを知っているだろうに。

というわけで明日のほぼプリは

の三本です。んがぐぐ。