WebOTX Manual V10.2 (第4版)

目次を表示

オペレーション遅延への対応

事象説明

以前に比べて応答が遅くなったことをここでは遅延として扱いますが、システム構築段階で試行させてみたら考えられない程遅かった、という場合も本記述を参考にしてください。遅延としては主に以下のケースが考えられます。

サーバ側に実装したユーザロジックの完了が何らかの理由により遅延している
- 最近修正した処理の問題
- 呼び出しているDB/ACOS/TPBASEなどの応答遅延
リクエスト数増加に伴いキュー中での実行待ち時間が増えている
サーバマシンの環境変化の影響
- メモリが逼迫しページング/スワッピング処理が増大
- CPU負荷が高まりCPU割り当て待ち時間の増加

状況の確認方法

運用アシスタントによるスローダウン検出
オペレーション処理時間の確認
処理件数、キュー滞留数の確認
サーバ環境の確認

採取資料

イベントログ(アプリケーション、システム)・syslog
APログ : ${INSTANCE_ROOT}/logs/tpsystem/<アプリケーショングループ名>/<プロセスグループ名>/save/<プロセスグループ名>.<数字>.<PID>.log
システムトレース : ${INSTANCE_ROOT}/logs/tpsystem/<アプリケーショングループ名>/<プロセスグループ名>/save/<プロセスグループ名>_sys.<数字>.<PID>.log
イベントジャーナル、キュー滞留数 : ${INSTANCE_ROOT}/logs/tpsystem/logcollect

対象APの特定

オペレーションジャーナルを採取して各APでの処理時間を確認することにより、対象APを特定できます。

対象オペレーションの特定

オペレーションジャーナルを採取すればAPだけでなくオペレーションも特定できます。
運用アシスタントのスローダウン検出メッセージからもオペレーションを特定できます

原因の特定

オペレーションジャーナルによりオペレーションのCPU使用時間を確認してください。実行時間に比べてCPU使用時間が少ない場合は、データベース・ACOSなどのバックエンド処理やネットワークに原因がある可能性があります。ユーザモードCPU使用時間が増加しているのであれば、サーバAPの処理に問題がある可能性があります。カーネルモードCPU使用時間が多い場合は、リソース使用の効率化等を検討してください。CPU時間が増加している場合は、[ CPU使用率の過剰への対応 ] を参考にして下さい。

また、統合運用管理ツールから、レスポンス時間（キュー待ち時間を含む）、実行時間（キュー待ち時間を含まない）、CPU時間を確認してください。レスポンス時間に比べて実行時間が少ない場合は、キュー滞留により遅延しています。詳細は、[ キュー滞留によるレスポンス遅延への対応 ] を参照してください。

「長期にわたるスローダウン状態」が検出された場合は、自動で3秒間隔5回のスタックトレース採取をしてアプリケーションログに出力します。アプリケーションログに記録されたスタックトレースからから処理内容を調査してください。

回避方法

サーバ側に実装したユーザロジックに問題がある場合は問題のあるオペレーションを一時的に閉塞して運用する方法が考えられます。

復旧方法

遅延した原因が、データベースやOSなどにあれば、そちらの障害を復旧させてください。サーバ側に実装したユーザロジックに問題がある場合は、該当プロセスグループを再起動することで一時的に復旧する可能性もありますが、アプリケーションの処理を見直す必要があります。運用アシスタントによりスローダウンが検出されたものの、一時的な遅延であり、何も処理を行わずとも正常状態に復帰する場合があります。この場合は、再起動のなどの復旧処置は必要ありません。「長期にわたるスローダウン」が検出されている場合は、恒久的な障害に陥っている可能性がありますので、原因を調査し、サーバ側に実装したユーザロジックに問題がある場合はプロセスグループの再起動を検討してください。

予防のための対策

サーバ側に実装したユーザロジックに問題がある場合はその処理を見直す必要があります。
リクエスト数増加が見込まれる場合はあらかじめプロセス数またはスレッド数を増やしておいてください。

その他

DNS解決が遅いために遅延していた、という事例が稀にあります。nslookupで応答時間を確認してください。可能であればホスト名をIPに変えて試してください。