ネイティブ例外への対応

事象説明

    例外ハンドリングをする設定(C++APのデフォルト設定)で不正アドレス参照などが発生すると本エラーとなります。本エラーが起きるとクライアントにはCORBA::UNKNOWN(3923)のエラーが返ります。該当のプロセスは例外の起きたスレッドを除く残りのスレッドで実行を継続します。残りのスレッドが0になった場合はプロセス終了します。

状況の確認方法

    イベントログ・シスログの確認

      ネイティブ例外の発生をWebOTXで検出した場合、イベントログ・シスログに以下のメッセージが出力されます。

      OTXM:<システム名>:<プロセスグループ名>:<プロセスID>: E:200:TPS10-04401 EXCEPTION OCCURED. CODE:<例外コード(Windows),・シグナル番号(UNIX)> <アプリケーショングループ名> <プロセスグループ名> <プロセスID>

    APログの確認

      ネイティブ例外の発生をWebOTXで検出した場合、APログに以下のメッセージが出力されます。

      Error: Exception occurred. repositoryID=<リポジトリID> operation=<オペレーション名>

問題の検出方法

    イベントログ・シスログの監視

      TPS10-04401のメッセージを監視することで検出可能です。

採取資料

    イベントログ(アプリケーション、システム)・シスログ

    APログ:
    ${INSTANCE_ROOT}/logs/tpsystem/<アプリケーショングループ名>/<プロセスグループ名>/save/<プロセスグループ名>.<数字>.<PID>.log

    システムトレース:
    ${INSTANCE_ROOT}/logs/tpsystem/<アプリケーショングループ名>/<プロセスグループ名>/save/<プロセスグループ名>_sys.<数字>.<PID>.log

    ${INSTANCE_ROOT}/config/tpsystem/history.act (sav)

    ${INSTANCE_ROOT}/config/tpsystem/sysmsg.trc (sav)

    ${INSTANCE_ROOT}/logs/server.log

    ${INSTANCE_ROOT}/logs/webotx_agent.log

    ${INSTANCE_ROOT}/logs/tpsystem/webotx_tpmmgr.log

    イベントジャーナル(採取方法は「TPモニタの運用操作 2.39 障害解析」を参照してください)

対象APの特定

    TPS10-04401のメッセージから特定します。

対象オペレーションの特定

    通常の方法では特定できません。もし再現可能なら特定する方法があります。「原因不明時の調査方法」を参照してください。

復旧方法

    実際にこの現象が発生してしまった場合の復旧方法について説明します。

      プロセスグループの再起動

        通常はプロセス再起動されるので特に対処する必要がないのですが、再起動回数を越えてしまうと、プロセスグループが停止状態になってしまいます。その場合はプロセスグループの起動が必要です。

      オペレーションの閉塞解除

        オペレーション実行中にアプリケーション例外などが発生した場合(特にC++モジュール)設定によってはオペレーションが閉塞してしまいます。閉塞してしまうとオペレーションの状態が停止状態となりアプリケーショングループを再起動するまで該当オペレーションを呼出すことができなくなります。その場合はオペレーションを再起動する必要があります。

予防のための対策

    この問題を予防するための対策については以下の方法があります。

      問題のAPの修正

        完全に問題を解決するためにはAPを修正する必要があります。例外コードを踏まえて、対象のオペレーションのコードを確認してください。

      プロセス数の設定

        予防ではありませんが、ネイティブ例外が発生した場合の影響を軽減するためにプロセス数を増やすことが効果的な場合があります。ネイティブ例外は発生し、全スレッドが使用不能になると該当プロセスは再起動しますが、再起動が完了するまでの間の呼び出しはエラーになってしまいます。そこで複数のプロセスを設定することにより、再起動処理中も他のプロセスで処理が続行できるように設定できます。プロセスグループの以下の設定を見直してください。
        「プロセス制御」の「プロセス数」
        なお、ステートフルの場合はこの対処はあまり効果がありません。

      再起動回数の設定

        アボートした場合のプロセスの再起動回数について設定します。システムの以下の設定を見直してください。
        「上限設定」の「プロセス障害時の再起動回数」
        また、一定時間経過した場合に再起動回数をリセットさせることができます。システムの以下の設定を見直してください。
        「プロセスを正常と仮定する間隔」

原因不明時の調査方法

    もし再現性がある場合は、TPシステムの設定の「例外ハンドルを行う」のチェックをOFFにして再現させてください。出力されたcore(UNIX)ないしワトソンログ(Windows)で発生箇所特定してください。coreファイルは、/opt/WebOTX/Trnsv ディレクトリ直下に出力されます。なお、例外ハンドルを外して再現させた場合、障害の見え方が変わり、プロセスの突然終了への対応 に説明する状況で起きることになります。

    「例外ハンドルを行う」のチェックをOFFにすると、以下の影響がありますので、注意が必要です。


関連情報

    プロセスの突然終了への対応

    オペレーション呼び出しでの障害
    サーバアプリケーションの障害
    TPモニタ機能の障害解析

    トラブルシューティング(障害解析)