サーバーがハングアップした時にしたこと(未解決:現在進行形)

いつぞやかに落雷が原因で停電したことがあった。それ以降、サーバーが不定期にハングアップするようになった。

長い時だと一週間位、短い時だと一日程度でハングアップ。サーバールームに駆け込み直接キーを叩くも反応なし。仕方ないので電源ボタンを長押しして強制終了→再起動というように、騙し騙し使っていた。

さすがに2~3ヶ月経ち、そろそろなにか原因を調査せねば思い立ったので、やっていること(2014年12月26日現在進行形)を書いていく。

/var/logのいろんなログを見つめる

特にこれといったエラーらしいものを発見できず。

OSの再インストール

一週間くらい何事も無く稼働していたのですが、昨日(2014/12/25 14時頃)ハングアップが。OS再インストールしてもだめということは、ハード側の問題かと勘ぐる。
セットアップなどは簡単に以下の様なことを行っていた

  1. インストール
  2. ネットワーク設定・ファイアウォール構築・ウイルス対策ソフトインストール
  3. SSH接続設定・SFTP接続設定
  4. Webサーバー構築・データベース(MariaDB)構築
  5. ImageMagickとpopplerのインストール

このあたりでハングアップ。ImageMagickとpopplerあたりが悪いのかなぁ。

HDDの不良セクタ検知

本日(2014/12/26 3時頃)、HDDの不良セクタを疑い、チェック中。コマンドは以下

# badblocks -s -o badsectors_sda1.txt /dev/sda1
# badblocks -s -o badsectors_sda2.txt /dev/sda2
# badblocks -s -o badsectors_sdb1.txt /dev/sdb1
# badblocks -s -o badsectors_sdb2.txt /dev/sdb2

sda1とsdb1のチェックは5秒くらいで終わったが、sda2とsdb2のチェックはそれぞれ1時間30分くらいかかった。しかし特に不良セクタは検知されなかった。

さて、これからどうするか。。。

コメント

タイトルとURLをコピーしました