常時起動サーバーで故障し易い箇所

この記事は約8分で読めます。
スポンサーリンク

現在運用しているWEBサーバーやデータベースサーバー、ファイルサーバーは、常時起動である。

常時起動のサーバー

サーバーといえどもパソコンなので、故障する。

過去に運用してきた経験では…

一番多いのが、やはりディスクの故障。

即●ではなく、S.M.A.R.T.の一部に異常が出るパターン。

関連:ローレベルフォーマットによるS.M.A.R.T.の変化(代替処理保留中のセクタ数,代替処理保留中のセクタ数,回復不可能セクタ数)

この場合、

動作に問題はない場合と、問題が出る場合がある。

ディスクは不良セクタが出ることを見込んで製造されているので、不良セクタが発生しても、代替処理することができる。

不良セクタが発生した箇所にあったデータが生きており、それが代替処理されれば、特に問題なく動く。

但し、この場合でも、不良の発生したディスクは交換すべきだろう。

問題が出るのは、不良セクタが発生した箇所にあったデータが破損してしまった場合。

これが運悪く起動に必要なファイルであると、起動に失敗する。

MySQLに必要なファイルであれば、MySQLが起動できなくなる。

このようなトラブルに備えるため、ミラーリング(RAID1)を組んでおく。

RAID1やRAID5は、故障しても許されるのは1台のみである。

2台以上壊れると、データは失われてしまう。

RAID5のリビルド時に生きているディスクに負荷がかかり故障し、データを失ったという話はよく聞く。

リビルド時は、普段よりもディスクに負荷がかかるので、その時に故障してしまうのだ。

RAIDを組んでいたとしても、確実に復旧できるとは限らない。

そんな時のために、別途バックアップを取っておこう。

RAIDには、ソフトウェアRAIDやハードウェアRAIDがあるが、Linuxであれば、ソフトウェアRAIDが使用可能。

# ソフトウェアRAIDやハードウェアRAIDの定義は、実は曖昧なのだが。

ハードウェアRAIDの場合、そのコントローラが壊れてしまうと?

次に多いのが、電源の故障。

関連:PowerEdgeT105の電源不良 2台連続 L305P-01 NH493 PS-6311-5DF-LF

マザーボード上の待機ランプが点灯するので通電はしているようだが、電源が入らない。

特定のモデルでの不良が重なっただけかもしれないが、電源も消耗品だ。

電源の冗長化がされていないサーバーであれば、予備電源の保管は必要だろう(ダウンタイムは生じるが)。

メモリーのエラーは、サーバーではないがクライアントでは経験した。

現象は、不安定になるとか、起動しないとか。

メモリーが原因と特定するのは、かなり大変だ。

最近のWindowsにはメモリーチェックツールが備えられているが、Memtest86でチェックするのがよいだろうね。

関連:Memtest(Memtest86)でのメモリチェック(診断)方法の日本語解説

Memtest86は昔からあるメモリーチェックツールで、フロッピーやCD-ROMで起動させたものだが、最近のノートパソコンだと、どちらも搭載していないこともあるので、USBメモリーから起動させよう。

最近は少ないだろうが、チェックOKのメモリー2枚を同時に挿すとNGとなる場合があるので注意(メモリーの相性問題)。

サーバーにはECC(Error Checking and Correction)付きのメモリを、とはよく言われる。

関連:PowerEdgeT105のメモリー換装(動作確認メモリーの型式)

ECCメモリーとは、エラーの検出と訂正を行なう機能を持っているので、確かにそうではあるが…

ECC付ではないメモリーを使用したサーバーも何台か運用している。

メモリー上で破損したデータがDBに格納されると困ることなるからね。

サーバーにどのくらいの重みを持たせるかで変わってくるだろう。

変わった不具合としては、電源断で再起動した際に、BIOSの設定が飛んでしまい、IDEモードで設定していたディスクモードがAHCIになってしまい、起動に失敗することがあった。

Debianだと、grubの後で停止してしまう。

普段出現しないはずのAHCIの認識画面が表示されるので気付くが、普段見ていない者は気付かないかもしれない。

レンタルサーバーやクラウドに移行すると、これらハードウェアの保守は不要になる。

何かあっても、ハード面は業者が見てくれるからね。

但し、メンテナンスとして、ダウンタイムが発生することがある。

多くは深夜から早朝に行われるので、社内用途では影響ないことも多いが、WEBサービスだと困る。

ハードウェアが社内にあると、保守が必要であるし、それに明るい技術者が必要になる。

保守を外部に任せるというのもあるが、即座に来てくれるのかどうか。

翌日営業日対応であるとか、当日4時間対応、定期訪問などがある。

DELLの保守サービス


  • 当日対応オンサイト保守サービス

  • 当日4時間対応オンサイト保守サービス(6営業日 9-17時)

  • 当日4時間対応オンサイト保守サービス(24時間365日)

  • 当日4時間プラス対応オンサイト保守サービス(6営業日 9-17時)

  • 当日4時間プラス対応オンサイト保守サービス(24時間365日)

関連:DELLの保守サービス

保守は保守で重要であるが、保守は評価されにくい(営業とは異なり売上が増えるわけではない)ので、有料保守サービスに対する上の理解が得られない場合も多い。

上がハード関連に無知であれば通るが、中途半端に詳しいと、そのくらい自社でヤレ!となって、これまた中途半端に詳しい事務員なんかが「管理者」になってしまう罠w

障害報告を受けても、話が通じない罠www

サーバーは問題なく動いていても、通信できなければ意味がない。

NICの不良は経験がないが、HUBの故障はよくある。

特にGigabit初期のHUBはよく故障した。

発熱が大きかったからだろうか。

面倒なのは、通電直後は通信できるが、しばらくするとダメになるパターン。

NICだけでなく、HUBの冗長化も必要だね。

有線LANがない端末は仕方がないが、サーバーを無線(Wi-Fi)でつなぐのはやめてくださいwww

ケーブルが嫌いなのは分かりますけど。

CPUの故障は、コア欠け(昔のAthlonなど)以来、ここのところ経験していない。

ファン交換時に付け直したグリスがCPUのLGA側に付着し、CPUは認識するものの、メモリーの一部が認識されないという経験がある。

メモリスロットの一部のみが使えないのだ。

グリスを塗る際は、CPUの裏面に付着していないか、LGA側にも付いていないか確認しよう。

マザーボードの不良も、サーバーに於いてはこのところ経験していない。

クライアントではUSB周りをはじめ、不良を経験しているが。

関連:Renesas(ルネサス)のUSB3.0(MPD720200)のドライバの更新(不具合解消)

サーバーなので、特殊な機能やチップ追加での強引な機能追加はよろしくない。

スイッチチップで速度を上げるとか。

数年前はそのようなマザーが多かったが、最近は枯れており、問題ないだろう。

サーバー用のマザーは、変なもの付けないしね。

コンデンサーもアルミコンデンサーから固体コンデンサーに置き換わっているので、コンデンサーの破裂やドライアップが原因で不安定になることもないだろう。

まぁ、メモリーやハードディスクは予備があれば交換できるが、マザーボードが故障した場合、同型のマザーボードの予備を持っていることは少ないと思うが…

マザーが壊れないことを祈ろうw

サーバーを導入したら、負荷を掛けて安定することを確認してから、実環境に投入するようにしている。

できるPRO CentOS 6 サーバー (できるプロシリーズ)
辻 秀典 渡辺 高志 できるシリーズ編集部
インプレスジャパン
売り上げランキング: 53,086
タイトルとURLをコピーしました