現在運用しているWEBサーバーやデータベースサーバー、ファイルサーバーは、常時起動である。
サーバーといえどもパソコンなので、故障する。
過去に運用してきた経験では…
一番多いのが、やはりディスクの故障。
売り上げランキング: 75
即●ではなく、S.M.A.R.T.の一部に異常が出るパターン。
関連:ローレベルフォーマットによるS.M.A.R.T.の変化(代替処理保留中のセクタ数,代替処理保留中のセクタ数,回復不可能セクタ数)
この場合、
動作に問題はない場合と、問題が出る場合がある。
ディスクは不良セクタが出ることを見込んで製造されているので、不良セクタが発生しても、代替処理することができる。
不良セクタが発生した箇所にあったデータが生きており、それが代替処理されれば、特に問題なく動く。
但し、この場合でも、不良の発生したディスクは交換すべきだろう。
問題が出るのは、不良セクタが発生した箇所にあったデータが破損してしまった場合。
これが運悪く起動に必要なファイルであると、起動に失敗する。
MySQLに必要なファイルであれば、MySQLが起動できなくなる。
技術評論社
売り上げランキング: 32,202
このようなトラブルに備えるため、ミラーリング(RAID1)を組んでおく。
RAID1やRAID5は、故障しても許されるのは1台のみである。
2台以上壊れると、データは失われてしまう。
RAID5のリビルド時に生きているディスクに負荷がかかり故障し、データを失ったという話はよく聞く。
リビルド時は、普段よりもディスクに負荷がかかるので、その時に故障してしまうのだ。
RAIDを組んでいたとしても、確実に復旧できるとは限らない。
そんな時のために、別途バックアップを取っておこう。
RAIDには、ソフトウェアRAIDやハードウェアRAIDがあるが、Linuxであれば、ソフトウェアRAIDが使用可能。
# ソフトウェアRAIDやハードウェアRAIDの定義は、実は曖昧なのだが。
ハードウェアRAIDの場合、そのコントローラが壊れてしまうと?
売り上げランキング: 2,860
次に多いのが、電源の故障。
売り上げランキング: 378
関連:PowerEdgeT105の電源不良 2台連続 L305P-01 NH493 PS-6311-5DF-LF
マザーボード上の待機ランプが点灯するので通電はしているようだが、電源が入らない。
特定のモデルでの不良が重なっただけかもしれないが、電源も消耗品だ。
電源の冗長化がされていないサーバーであれば、予備電源の保管は必要だろう(ダウンタイムは生じるが)。
メモリーのエラーは、サーバーではないがクライアントでは経験した。
現象は、不安定になるとか、起動しないとか。
メモリーが原因と特定するのは、かなり大変だ。
最近のWindowsにはメモリーチェックツールが備えられているが、Memtest86でチェックするのがよいだろうね。
関連:Memtest(Memtest86)でのメモリチェック(診断)方法の日本語解説
Memtest86は昔からあるメモリーチェックツールで、フロッピーやCD-ROMで起動させたものだが、最近のノートパソコンだと、どちらも搭載していないこともあるので、USBメモリーから起動させよう。
最近は少ないだろうが、チェックOKのメモリー2枚を同時に挿すとNGとなる場合があるので注意(メモリーの相性問題)。
サーバーにはECC(Error Checking and Correction)付きのメモリを、とはよく言われる。
売り上げランキング: 8,515
関連:PowerEdgeT105のメモリー換装(動作確認メモリーの型式)
ECCメモリーとは、エラーの検出と訂正を行なう機能を持っているので、確かにそうではあるが…
ECC付ではないメモリーを使用したサーバーも何台か運用している。
メモリー上で破損したデータがDBに格納されると困ることなるからね。
サーバーにどのくらいの重みを持たせるかで変わってくるだろう。
変わった不具合としては、電源断で再起動した際に、BIOSの設定が飛んでしまい、IDEモードで設定していたディスクモードがAHCIになってしまい、起動に失敗することがあった。
Debianだと、grubの後で停止してしまう。
普段出現しないはずのAHCIの認識画面が表示されるので気付くが、普段見ていない者は気付かないかもしれない。
レンタルサーバーやクラウドに移行すると、これらハードウェアの保守は不要になる。
何かあっても、ハード面は業者が見てくれるからね。
但し、メンテナンスとして、ダウンタイムが発生することがある。
多くは深夜から早朝に行われるので、社内用途では影響ないことも多いが、WEBサービスだと困る。
ハードウェアが社内にあると、保守が必要であるし、それに明るい技術者が必要になる。
保守を外部に任せるというのもあるが、即座に来てくれるのかどうか。
翌日営業日対応であるとか、当日4時間対応、定期訪問などがある。
- 当日対応オンサイト保守サービス
- 当日4時間対応オンサイト保守サービス(6営業日 9-17時)
- 当日4時間対応オンサイト保守サービス(24時間365日)
- 当日4時間プラス対応オンサイト保守サービス(6営業日 9-17時)
- 当日4時間プラス対応オンサイト保守サービス(24時間365日)
関連:DELLの保守サービス
保守は保守で重要であるが、保守は評価されにくい(営業とは異なり売上が増えるわけではない)ので、有料保守サービスに対する上の理解が得られない場合も多い。
上がハード関連に無知であれば通るが、中途半端に詳しいと、そのくらい自社でヤレ!となって、これまた中途半端に詳しい事務員なんかが「管理者」になってしまう罠w
障害報告を受けても、話が通じない罠www
サーバーは問題なく動いていても、通信できなければ意味がない。
NICの不良は経験がないが、HUBの故障はよくある。
特にGigabit初期のHUBはよく故障した。
発熱が大きかったからだろうか。
面倒なのは、通電直後は通信できるが、しばらくするとダメになるパターン。
NICだけでなく、HUBの冗長化も必要だね。
売り上げランキング: 350
有線LANがない端末は仕方がないが、サーバーを無線(Wi-Fi)でつなぐのはやめてくださいwww
ケーブルが嫌いなのは分かりますけど。
CPUの故障は、コア欠け(昔のAthlonなど)以来、ここのところ経験していない。
ファン交換時に付け直したグリスがCPUのLGA側に付着し、CPUは認識するものの、メモリーの一部が認識されないという経験がある。
メモリスロットの一部のみが使えないのだ。
グリスを塗る際は、CPUの裏面に付着していないか、LGA側にも付いていないか確認しよう。
マザーボードの不良も、サーバーに於いてはこのところ経験していない。
クライアントではUSB周りをはじめ、不良を経験しているが。
関連:Renesas(ルネサス)のUSB3.0(MPD720200)のドライバの更新(不具合解消)
サーバーなので、特殊な機能やチップ追加での強引な機能追加はよろしくない。
スイッチチップで速度を上げるとか。
数年前はそのようなマザーが多かったが、最近は枯れており、問題ないだろう。
サーバー用のマザーは、変なもの付けないしね。
コンデンサーもアルミコンデンサーから固体コンデンサーに置き換わっているので、コンデンサーの破裂やドライアップが原因で不安定になることもないだろう。
まぁ、メモリーやハードディスクは予備があれば交換できるが、マザーボードが故障した場合、同型のマザーボードの予備を持っていることは少ないと思うが…
マザーが壊れないことを祈ろうw
サーバーを導入したら、負荷を掛けて安定することを確認してから、実環境に投入するようにしている。
インプレスジャパン
売り上げランキング: 53,086