サーバアプリケーションの障害 |
アプリケーションが起動/停止しない、アプリケーションの起動/停止に時間がかかる、アプリケーションが異常終了するといった障害について説明しています。
起動操作を行った際に起動完了に著しく時間がかかった、または失敗した場合を起動障害とします。
タイムアウト障害
起動時の処理にはプロセスで一度行うプロセス起動処理とスレッド毎に一度行うスレッド起動処理があ
り、どちらも無応答状態を避けるためにタイマ監視しています。タイマ値まで待っても各処理が完了しな
い場合は起動失敗とみなして異常終了します。タイマはデフォルトで10 分(プロセス起動処理10 分、スレ
ッド起動処理10 分)となっています。統合運用管理ツールでプロセスグループの状態を確認したときに、起動
処理中の状態が長く続いている場合は、このタイムアウト障害が繰り返し発生しているがあります(但し
プロセス障害時の再起動回数を2 以上としている場合です)。
イベントログ・シスログにTPS15-01312、またはTPS10-11101 が出力されている場合は、プロセス起動
処理またはスレッド起動処理で遅延しています。
統合運用管理ツールでプロセスグループの状態を確認したときに、起動処理中の状態が長く続いている場合
は、この起動処理失敗が繰り返し発生している可能性があります(但しプロセス障害時の再起動回数を2
以上としている場合です)。プロセスが起動してすぐに停止状態になるといった場合も、起動処理中に例
外している可能性があります。
イベントログ・シスログにTPS10-11001 またはTPS10-00402 が出力されている場合は、起動処理中に
例外しています。
AP 起動に時間がかかった場合、AP を起動後すぐの呼び出しが何故か失敗したが暫くしたら呼べるよう になった、などの場合、起動処理に時間がかかっている可能性があります。AP の起動がなかなか終わ らない(プロセスグループのアイコンが緑にならない)という場合も、起動処理が遅延している可能性があ ります。
起動後しばらく動作していたものが異常終了したケースです。
イベントログ・シスログまたは
${INSTANCE_ROOT}/config/tpsystem/history.act を調査してください。
タイムアウト障害
リクエストを受け付けて実装部分(オペレーション)を呼び出した時にそのオペレーションが無応答状態 になることを避けるためにタイマ監視しています。タイマ値まで待ってもオペレーションが完了しない場合は 失敗とみなしてイベントログ・シスログに下記エラーメッセージを出力し、プロセスは終了します。
・TPS10-13301 → 実行時間超過への対応
オペレーション失敗
リクエストを受け付けて実装部分(オペレーション)を呼び出したものの、それが正常終了せずにJava ランタイム例外やネイティブ例外などを検出した場合、イベントログ・シスログに下記エラーメッセージ を出力してプロセスは終了します。
・TPS10-04401 → ネイティブ例外への対応
・TPS10-13201 → APアボートへの対応
正常の終了
・TPS15-01214/TPS15-01210
これらは${INSTANCE_ROOT}/config/tpsystem/history.actに出力されるプロセス及びプロセスグループの 正常停止メッセージであり、運用停止時に出力されます。異常終了時は別のメッセージが出力されます。 APが異常終了したと思って調査したものの実際には運用停止操作が行われていた、といったことがまれに あります。${INSTANCE_ROOT}/config/tpsystem/history.actを確認し、終了が異常か正常かを見極めてください。
停止操作を行った際に停止完了に著しく時間がかかった、または失敗した場合を停止障害とします。
アプリケーションプロセスの異常終了時の停止処理に著しく時間がかかった場合も停止傷害とします。
タイムアウト障害
アプリケーショングループ、もしくはプロセスグループの停止処理がタイムアウトしたという場合は、
アプリケーションプロセスの停止処理がタイムアウトした可能性があります。
停止時の処理にはプロセスで一度行うプロセス停止処理とスレッド毎に一度行うスレッド停止処理があり、
どちらも無応答状態を避けるためにタイマ監視しています。タイマ値まで待っても各処理が完了しない場合
は停止失敗とみなしてその後の処理を行わずに異常終了します。タイマはデフォルトで10分
(プロセス異常終了時停止処理10分、スレッド停止処理10分)となっています。
イベントログ・シスログにTPS15-01312やTPS10-11101やTPS10-13301が出力されている場合は、停止処理中に
タイムアウトしています。
遅延
アプリケーショングループ、もしくはプロセスグループの停止処理に時間がかかるという場合は、
アプリケーションプロセスの停止処理が遅延している可能性があります。
AP停止に時間がかかった場合は前記タイムアウト障害の一歩手前の状況と考えられます。