仕事場のサーバーが壊れた事件の原因は、RAID の電源系の故障だった。
ファンへの電源が供給されなくなりファンが停止、内部温度が上昇し、ハードディスクが不安定動作に陥りデータが壊れたのだ。
データを守るために RAID を使用していたのに、その RAID が故障していたと言う皮肉。
ちなみに、この RAID は1年前に買ったもので、壊れたのは保障期間終了から2週間後。
期間終了していると言っても、これはさすがに RAID に信頼性がないのでは? と購入店にクレームを入れたら、無償修理は出来ないが4000円で新品に交換してくれたらしい。
さて、機械だからいつか壊れるのは仕方がない。
壊れた時にすぐ対応できるかどうかが問題となる。
そこで、サーバー各部に温度センサーをつけることにした。
幸いなことに、センサーを駆動するための「常時起動している」マシンは、サーバールームには多数ある。
サーバー担当者がいろいろ調べ、1万円ほどの温度センサーを購入してきた。
本体は1万円程度だが、センサーユニット1個は千円で、デイジーチェーンして多数接続できるらしい。
パソコンへの接続は RS232C で、Linux 用のドライバも提供されている。
とりあえず、本体には3個のセンサーがついてきた。
これを使って、RAID の温度をセンシングしつづけ、異常があったらメールで管理者に知らせるような環境が構築できるといいだろう。
この話を仕事場でしている時、「Windows にもハードディスクの温度を調べるソフトがある」と言う話になった。
温度計もないのに、どうやって調べるの? と思ったら、最近のハードディスクは温度計内蔵が多いらしい。知らなかった。
温度を調べるソフトはLinux にもあるらしい。さっそく家のサーバーにも入れてみた。
(RAID を組んでいると、RAID がこの機能に対応していないので温度を読み取れないようだ)
実は、家のマシンはファンが壊れてうるさかったので止めてしまったりしていた。
RAID 故障事件があってから心配になってファンは修理したのだが、温度管理もしておけばなお安心だろう。
同じテーマの日記(最近の一覧)
関連ページ
別年同日の日記
申し訳ありませんが、現在意見投稿をできない状態にしています。 【あきよし】 あー、誤字ですね (^^; 日記はあまり時間かけずに書いているのでいい加減です。すみません。(日記以外もいい加減ですけど) 修正しときました。 (2004-07-09 09:27:11)【masbci】 温度計内'臓'(^^; (2004-07-09 00:54:02) |