常時起動サーバーで故障し易い箇所

現在運用しているWEBサーバーやデータベースサーバー、ファイルサーバーは、常時起動である。

サーバーといえどもパソコンなので、故障する。

過去に運用してきた経験では…

一番多いのが、やはりディスクの故障。

【Amazon.co.jp限定】WD Green 3.5inch IntelliPower 2.0TB 64MBキャッシュ SATA3.0 WD20EZRX/N 【フラストレーションフリーパッケージ(FFP)】

posted on shattered-blog.com at 14.06.29

Western Digital
売り上げランキング: 75

Amazon.co.jpで詳細を見る

即●ではなく、S.M.A.R.T.の一部に異常が出るパターン。

この場合、

動作に問題はない場合と、問題が出る場合がある。

ディスクは不良セクタが出ることを見込んで製造されているので、不良セクタが発生しても、代替処理することができる。

不良セクタが発生した箇所にあったデータが生きており、それが代替処理されれば、特に問題なく動く。

但し、この場合でも、不良の発生したディスクは交換すべきだろう。

問題が出るのは、不良セクタが発生した箇所にあったデータが破損してしまった場合。

これが運悪く起動に必要なファイルであると、起動に失敗する。

MySQLに必要なファイルであれば、MySQLが起動できなくなる。

エキスパートのためのMySQL[運用+管理]トラブルシューティングガイド

posted on shattered-blog.com at 14.06.29

奥野幹也
技術評論社
売り上げランキング: 32,202

Amazon.co.jpで詳細を見る

このようなトラブルに備えるため、ミラーリング(RAID1)を組んでおく。

RAID1やRAID5は、故障しても許されるのは1台のみである。

2台以上壊れると、データは失われてしまう。

RAID5のリビルド時に生きているディスクに負荷がかかり故障し、データを失ったという話はよく聞く。

リビルド時は、普段よりもディスクに負荷がかかるので、その時に故障してしまうのだ。

RAIDを組んでいたとしても、確実に復旧できるとは限らない。

そんな時のために、別途バックアップを取っておこう。

RAIDには、ソフトウェアRAIDやハードウェアRAIDがあるが、Linuxであれば、ソフトウェアRAIDが使用可能。

# ソフトウェアRAIDやハードウェアRAIDの定義は、実は曖昧なのだが。

ハードウェアRAIDの場合、そのコントローラが壊れてしまうと？

エアリア Raid JET PCI Express X1 接続 Raidボード Raid0 1対応 SD-PESA3-2RL

posted on shattered-blog.com at 14.06.29

エアリア
売り上げランキング: 2,860

Amazon.co.jpで詳細を見る

次に多いのが、電源の故障。

オウルテック【80PLUS SILVER取得】 HASWELL対応 ATX電源ユニット 3年間交換【【保障】】 FSP RAIDERシリーズ 650W RA-650

posted on shattered-blog.com at 14.06.29

オウルテック
売り上げランキング: 378

Amazon.co.jpで詳細を見る

マザーボード上の待機ランプが点灯するので通電はしているようだが、電源が入らない。

特定のモデルでの不良が重なっただけかもしれないが、電源も消耗品だ。

電源の冗長化がされていないサーバーであれば、予備電源の保管は必要だろう(ダウンタイムは生じるが)。

メモリーのエラーは、サーバーではないがクライアントでは経験した。

現象は、不安定になるとか、起動しないとか。

メモリーが原因と特定するのは、かなり大変だ。

最近のWindowsにはメモリーチェックツールが備えられているが、Memtest86でチェックするのがよいだろうね。

Memtest86は昔からあるメモリーチェックツールで、フロッピーやCD-ROMで起動させたものだが、最近のノートパソコンだと、どちらも搭載していないこともあるので、USBメモリーから起動させよう。

最近は少ないだろうが、チェックOKのメモリー2枚を同時に挿すとNGとなる場合があるので注意(メモリーの相性問題)。

サーバーにはECC(Error Checking and Correction)付きのメモリを、とはよく言われる。

Transcend 240PIN デスクトップPC用増設メモリ DDR3-1333 ECC機能付 4GB 永久保証 TS512MLK72V3N

posted on shattered-blog.com at 14.06.29

トランセンド・ジャパン
売り上げランキング: 8,515

Amazon.co.jpで詳細を見る

関連：PowerEdgeT105のメモリー換装(動作確認メモリーの型式)

ECCメモリーとは、エラーの検出と訂正を行なう機能を持っているので、確かにそうではあるが…

ECC付ではないメモリーを使用したサーバーも何台か運用している。

メモリー上で破損したデータがDBに格納されると困ることなるからね。

サーバーにどのくらいの重みを持たせるかで変わってくるだろう。

変わった不具合としては、電源断で再起動した際に、BIOSの設定が飛んでしまい、IDEモードで設定していたディスクモードがAHCIになってしまい、起動に失敗することがあった。

Debianだと、grubの後で停止してしまう。

普段出現しないはずのAHCIの認識画面が表示されるので気付くが、普段見ていない者は気付かないかもしれない。

レンタルサーバーやクラウドに移行すると、これらハードウェアの保守は不要になる。

何かあっても、ハード面は業者が見てくれるからね。

但し、メンテナンスとして、ダウンタイムが発生することがある。

多くは深夜から早朝に行われるので、社内用途では影響ないことも多いが、WEBサービスだと困る。

ハードウェアが社内にあると、保守が必要であるし、それに明るい技術者が必要になる。

保守を外部に任せるというのもあるが、即座に来てくれるのかどうか。

翌日営業日対応であるとか、当日4時間対応、定期訪問などがある。

当日対応オンサイト保守サービス

当日4時間対応オンサイト保守サービス(6営業日 9-17時)

当日4時間対応オンサイト保守サービス(24時間365日)

当日4時間プラス対応オンサイト保守サービス(6営業日 9-17時)

当日4時間プラス対応オンサイト保守サービス(24時間365日)

関連：DELLの保守サービス

保守は保守で重要であるが、保守は評価されにくい(営業とは異なり売上が増えるわけではない)ので、有料保守サービスに対する上の理解が得られない場合も多い。

上がハード関連に無知であれば通るが、中途半端に詳しいと、そのくらい自社でヤレ！となって、これまた中途半端に詳しい事務員なんかが「管理者」になってしまう罠ｗ

障害報告を受けても、話が通じない罠ｗｗｗ

サーバーは問題なく動いていても、通信できなければ意味がない。

NICの不良は経験がないが、HUBの故障はよくある。

特にGigabit初期のHUBはよく故障した。

発熱が大きかったからだろうか。

面倒なのは、通電直後は通信できるが、しばらくするとダメになるパターン。

NICだけでなく、HUBの冗長化も必要だね。

NETGEAR GS108v3 8ポートギガビットスイッチングハブ (省電力製品) GS108-300JPS (本体ライフタイム保証)

posted on shattered-blog.com at 14.06.29

ネットギア (2009-01-27)
売り上げランキング: 350

Amazon.co.jpで詳細を見る

有線LANがない端末は仕方がないが、サーバーを無線(Wi-Fi)でつなぐのはやめてくださいｗｗｗ

ケーブルが嫌いなのは分かりますけど。

CPUの故障は、コア欠け(昔のAthlonなど)以来、ここのところ経験していない。

ファン交換時に付け直したグリスがCPUのLGA側に付着し、CPUは認識するものの、メモリーの一部が認識されないという経験がある。

メモリスロットの一部のみが使えないのだ。

グリスを塗る際は、CPUの裏面に付着していないか、LGA側にも付いていないか確認しよう。

マザーボードの不良も、サーバーに於いてはこのところ経験していない。

クライアントではUSB周りをはじめ、不良を経験しているが。

サーバーなので、特殊な機能やチップ追加での強引な機能追加はよろしくない。

スイッチチップで速度を上げるとか。

数年前はそのようなマザーが多かったが、最近は枯れており、問題ないだろう。

サーバー用のマザーは、変なもの付けないしね。

コンデンサーもアルミコンデンサーから固体コンデンサーに置き換わっているので、コンデンサーの破裂やドライアップが原因で不安定になることもないだろう。

まぁ、メモリーやハードディスクは予備があれば交換できるが、マザーボードが故障した場合、同型のマザーボードの予備を持っていることは少ないと思うが…

マザーが壊れないことを祈ろうｗ

サーバーを導入したら、負荷を掛けて安定することを確認してから、実環境に投入するようにしている。

できるPRO CentOS 6 サーバー (できるプロシリーズ)

posted on shattered-blog.com at 14.06.29

辻秀典渡辺高志できるシリーズ編集部
インプレスジャパン
売り上げランキング: 53,086

Amazon.co.jpで詳細を見る