オペレーション遅延への対応

オペレーション遅延への対応

事象説明

以前に比べて応答が遅くなったことをここでは遅延として扱いますが、システム構築段階で試行させてみたら考えられない程遅かった、という場合も本記述を参考にしてください。遅延としては主に以下のケースが考えられます。

サーバ側に実装したユーザロジックの完了が何らかの理由により遅延している
- 最近修正した処理の問題
- 呼び出しているDB/ACOS/TPBASEなどの応答遅延
リクエスト数増加に伴いキュー中での実行待ち時間が増えている
サーバマシンの環境変化の影響
- メモリが逼迫しページング/スワッピング処理が増大
- CPU負荷が高まりCPU割り当て待ち時間の増加

状況の確認方法

運用アシスタントによるスローダウン検出

運用アシスタント機能により通常よりオペレーション処理が遅くなったことを検出できます。スローダウンが検出されると以下のメッセージがイベントログ・シスログに通知されます。


						“OTX20110100 オペレーションｚｚｚのスローダウンを検出しました。current:平均実行時間=xxx秒。normal:平均実行時間=www秒。プロセスグループ=vvv。 ObjectName=yyy”

						 “OTX20110100 The Operation ｚｚｚ get late. Average of current time is xxx s. Average of normal time is www s. The Process Group is vvv. The ObjectName is yyy“

TPモニタの運用操作 2.40.5 スローダウン障害の検出


						“OTX20120100 オペレーションｚｚｚがスローダウン状態からノーマル状態に遷移しました。current:平均実行時間=xxx秒。normal:平均実行時間=www秒。プロセスグループ=vvv, ObjectName=yyy”

						 “OTX20120100 The Operation ｚｚｚ transit from slowdown to normal. Average of current time is xxx s. Average of normal time is www s. The Process Group is vvv. The ObjectName is yyy “


						“OTX20110200 オペレーションｚｚｚの長期にわたるスローダウン状態を検出しました。current:平均実行時間=xxx秒。normal:平均実行時間=www秒。スローダウン継続時間=uuu分。プロセスグループ名=vvv, ObjectName=yyy”

						 “OTX20110200 The Operation zzz is slow for a long time. Average of current time is xxx s. Average of normal time is www s. Duration of slow is uuu m. The Process Group is vvv. The ObjectName is yyy “

オペレーション処理時間の確認
処理件数、キュー滞留数の確認
サーバ環境の確認

採取資料

イベントログ(アプリケーション、システム)・シスログ

ジャーナル（採取方法は「TPモニタの運用操作 2.39 障害解析」）

APログ:
${INSTANCE_ROOT}/logs/tpsystem/<アプリケーショングループ名>/<プロセスグループ名>/save/<プロセスグループ名>.<数字>.<PID>.log

システムトレース:
${INSTANCE_ROOT}/logs/tpsystem/<アプリケーショングループ名>/<プロセスグループ名>/save/<プロセスグループ名>_sys.<数字>.<PID>.log

イベントジャーナル（採取方法は「TPモニタの運用操作 2.39 障害解析」）

quewrt, DI X TR（採取方法は「TPモニタの運用操作 2.39 障害解析」）

対象APの特定

オペレーションジャーナルを採取して各APでの処理時間を確認することにより、対象APを特定できます。

対象オペレーションの特定

オペレーションジャーナルを採取すればAPだけでなくオペレーションも特定できます。
運用アシスタントのスローダウン検出メッセージからもオペレーションを特定できます

原因の特定

オペレーションジャーナルによりオペレーションのCPU使用時間を確認してください。実行時間に比べてCPU使用時間が少ない場合は、データベース・ACOSなどのバックエンド処理やネットワークに原因がある可能性があります。ユーザモードCPU使用時間が増加しているのであれば、サーバAPの処理に問題がある可能性があります。カーネルモードCPU使用時間が多い場合は、リソース使用の効率化等を検討してください。CPU時間が増加している場合は、CPU使用率の過剰への対応を参考にして下さい。

また、統合運用管理ツールから、レスポンス時間（キュー待ち時間を含む）、実行時間（キュー待ち時間を含まない）、CPU時間を確認してください。レスポンス時間に比べて実行時間が少ない場合は、キュー滞留により遅延しています。
→　キュー滞留によるレスポンス遅延への対応
「長期にわたるスローダウン状態」が検出された場合は、デフォルト設定では自動的にJavaプロセスのスタックトレースが採取されます。APログに記録されたスタックトレースからから処理内容を調査してください。

回避方法

サーバ側に実装したユーザロジックに問題がある場合は問題のあるオペレーションを一時的に閉塞して運用する方法が考えられます。

復旧方法

遅延した原因が、データベースやOSなどにあれば、そちらの障害を復旧させてください。

サーバ側に実装したユーザロジックに問題がある場合は、該当プロセスグループを再起動することで一時的に復旧する可能性もありますが、アプリケーションの処理を見直す必要があります。

運用アシスタントによりスローダウンが検出されたものの、一時的な遅延であり、何も処理を行わずとも正常状態に復帰する場合があります。この場合は、再起動のなどの復旧処置は必要ありません。

「長期にわたるスローダウン」が検出されている場合は、恒久的な障害に陥っている可能性がありますので、原因を調査し、サーバ側に実装したユーザロジックに問題がある場合はプロセスグループの再起動を検討してください。

予防のための対策

サーバ側に実装したユーザロジックに問題がある場合はその処理を見直す必要があります。

リクエスト数増加が見込まれる場合はあらかじめプロセス数またはスレッド数を増やしておいてください。

その他

DNS解決が遅いために遅延していた、という事例が稀にあります。nslookupで応答時間を確認してください。可能であればホスト名をIPに変えて試してください。