論考2026.06.12

特徴量から、行動へAIエージェント時代に「説明可能性」を問い直す

AIエージェントのパフォーマンスをどう評価するかについては、すでに多くの議論がなされています。一方で、なぜAIエージェントがそのパフォーマンスなのか、なぜあるタスクについてAという判断をしたのかを推し量ることも、ビジネス上重要なテーマです。

機械学習の時代、この「なぜAIはそう判断したのか」という問いには、SHAPに代表されるXAI（説明可能AI）の手法が一定の答えを与えてきました。ただし、2026年初頭に公開された研究では、SHAPに代表される特徴量寄与型の説明を、AIエージェントの説明にそのまま中核手法として持ち込むことの限界が論じられています。説明すべき対象が、単一の予測を支えた「特徴量」から、時間をまたいで展開する「行動の軌跡」へと移ったためです。本稿では主に2本の論文 [1][2] を手がかりに、この転換の中身と、AIエージェントを業務に実装・運用する実務者が持ち帰るべき示唆を整理します。

ビジネス領域におけるSHAPの流行

生成AI以前のビジネスAIの中心は、過去データから予測を行う機械学習でした。機械学習とは、例えば過去の住宅ローンの審査データから新規顧客の審査結果を予測したり、過去の生活習慣データから病気のリスクを予測したりするように、過去のデータに含まれるパターンを学習し、未知のデータに対する判断や予測を行う技術を指します。

この機械学習の世界では、一時期XAI（Explainable AI、説明可能AI）という言葉が話題になりました。モデルが複雑化して中身がブラックボックスになるにつれ、「なぜこのモデルはこの判断をしたのか」という説明可能性を確保することが難しくなったためです。これは、説明責任が特に重く問われる金融・医療・公共といった領域では、特に深刻な問題でした。

そこでビジネスでも積極的に利用されるようになったのが、SHAP（SHapley Additive exPlanations）[3] 等の手法です。SHAPは、協力ゲーム理論の「シャープレイ値」という概念をAIの説明に持ち込んだ手法です。シャープレイ値とは、複数のプレイヤーが協力して得た利益を、各プレイヤーの貢献度に応じて公平に配分するための考え方です。これを「各特徴量がプレイヤー、予測結果が利益」と読み替えることで、それぞれの特徴量が予測をどれだけ押し上げ／押し下げたかを分解して示します。例えば、あるAIが住宅ローンの審査でなぜ否決という判断をしたのか、なぜ病気のリスクがあると予測したのか、といった説明に使われます。

理論的な裏付けが明確で、個別の予測の説明にも全体的な傾向の把握にも使える点が広く受け入れられ、SHAPは、静的な入出力対応 y = f(x) に対する後付けの説明（post-hoc explanation）として、ビジネスの世界に定着していきました。

もっとも、こうしたXAIブームの中でも、後付けの説明に対する根本的な批判は存在していました。Liptonは、解釈可能性という言葉が、モデルを人間が理解しやすい形で表現すること、モデルの出力に対して後から説明を与えること、そしてその説明がモデルの実際の振る舞いにどこまで忠実であるかという問題を、しばしば区別せずに扱っていると指摘し [4]、Rudinは、人命や人生を左右する高リスク領域では、ブラックボックスを事後的に説明するのではなく、最初から解釈可能なモデルを使うべきだと論じました [5]。「説明のもっともらしさは、忠実さを保証しない」という論点は、後述するように、AIエージェントの時代にいっそう重要になります。

AIエージェントの台頭と新しい問い

そこから数年で、AIの注目領域は、急速に生成AIへと移りました。従来の機械学習が得意としていた予測領域においても生成AIが活用されるようになり、さらにAIエージェントの台頭によって、従来の予測モデルでは扱いにくかった、複数ステップの業務遂行までAIに任せる検討が進みました。「AIエージェント元年」とも呼ばれた2025年以降、ビジネスの世界では一気にAIエージェントの利活用の検討が進んでいます。

ここで自然に湧いてくるのが、次の問いです。かつて機械学習で重要視され、SHAP等によって一定の答えが与えられた「説明可能性」は、AIエージェントの時代にはどうなるのでしょうか。

そもそも説明可能性が求められてきたのは、それが技術的に望ましいからというより、AIの判断の先に必ず人がいるからでした。ビジネスの意思決定では、「なぜこの結論になったのか」を言葉にして示せなければなりません。特に規制の厳しい領域でAIを使う企業は、その判断の理由を説明する責任（accountability）を負っています。説明できないAIは、どれほど便利であっても、ビジネスの根幹である信頼には応えられません。

そしてこの説明責任は、AIエージェントの時代にむしろ重みを増しています。AIエージェントは、あらかじめ与えられた目的や制約のもとで、人間の逐次的な指示を待たずに、観測・判断・行動を繰り返します。意思決定が人間の手元から遠ざかっていくにも関わらず、何かが起きたときに最後に答えを求められるのは、その仕組みを世に送り出した人間の側です。

ところが結論から言えば、SHAP等の従来のXAI手法だけでは、AIエージェントの振る舞いを十分に説明することはできません。これは手法の精度が足りないという話ではなく、両者が前提としている「世界の形」が根本的に異なるためです。次節で、この前提のミスマッチを見ていきます。

「特徴量」から「軌跡」へ

従来のXAIが暗黙のうちに前提としていた世界の形を、文献[2]は簡潔に定式化しています。従来の機械学習が扱ってきたのは静的な世界であり、システムは入力 x に対して固定された対応関係 y = f(x) を持ちます。メールがスパムか否かを判定する、腫瘍が悪性か良性かを予測する、といった具合です。説明は「単一の入力 → 単一の出力」というかたちで定義され、SHAPはこの「判断の単位が1回の予測である」という前提のうえに成り立っています。説明すべき対象が1つの予測である場合、その予測に効いた特徴量を分解して示すことが、少なくとも有力な説明形式として機能しました。

ところがAIエージェントは、この前提を根底から覆します。AIエージェントの振る舞いは単一の予測ではなく、時間をまたいで展開する軌跡（trajectory）として立ち現れます。論文の記法を借りれば、次のような系列です。

τ = (s_0, a_0, o_0, s_1, a_1, o_1, …, s_T)

ここで s は各ステップにおける内部状態、a は行動（ツールの呼び出しを含む）、o は環境から受け取った観測です。AIエージェントは「環境を観測し → 推論し → 行動する」というループを何十回も繰り返したうえで、ようやく最終的な結果を出します。

重要なのは、AIエージェントの成功や失敗は、単一の意思決定ではなく、行動の軌跡全体の中で形成されるという点です。例えば、航空券の予約を任されたAIエージェントがタスクに失敗した場合、その原因を「ある一回の判断ミス」だけに還元することは難しい場合が多くあります。実際には、初期の小さな誤解、不適切なツール選択、途中での方針転換、誤った情報の引き継ぎ、エラー発生後のリカバリー失敗といった複数の要因が、時間をかけて積み重なり、最終的な失敗として現れます。これは個々の出力や単発の判断だけでは捉えきれず、入力、推論、ツール利用、観測結果、状態更新が連鎖する軌跡全体を見渡して初めて説明できるものです。

「寄与を配分する説明」の限界

SHAPの仕組みを思い出すと、各特徴量の貢献度は「その特徴量がある場合とない場合とで、予測がどれだけ変わるか」を、特徴量のあらゆる組み合わせについて比較することで算出されます。つまりSHAPは、複雑なモデルの予測を、人間が読める加法的な説明モデルとして近似・表現します。特徴量間の相互作用を理論上まったく扱えないわけではありませんが、説明の成果物は基本的に「各特徴量に配分された寄与」として提示されます。

しかしAIエージェントでは、知覚・計画・推論・ツール実行・状態更新といった要素が、時間方向に依存し合いながら連鎖します。ある要素だけを独立に取り外して「その有無による性能差」を見ることは、静的な特徴量をオン／オフする場合ほど単純ではありません。前段の出力が後段の入力となり、途中の観測結果が以後の文脈を書き換えるため、失敗は単一要素の寄与というより、連鎖の中で形成されるからです。

つまりSHAPは、エージェントの実行ログを後から特徴量化したうえで、「失敗しやすい実行にはどのような行動特性が多いか」を集計的に見る用途には使えます。しかしそれは、あくまで失敗パターンの統計分析です。ある1回の失敗について、「どの時点で制約を見落とし、その見落としがどのツール選択を歪め、最終的にどの業務エラーにつながったのか」を説明するには、実行軌跡そのものを辿る必要があります。

AIエージェント特有の難しさとして、[1]は、ある時点の認識・推論・行動の誤りが、後続ステップに伝播し、最終的な失敗として遅れて表面化しうる点を指摘しています。例えば、ある時点 t における知覚の誤りが、その場では失敗として現れなくても、後続の推論やツール選択を歪め、最終的な実行失敗につながる、という構図です。

従来のXAIは、静的で一回限りの計算と単純な関係を前提にしていました。これに対しAIエージェントは、出力が次の入力になり、ツールの結果が文脈を書き換え、状態が連続的に変化していく、反復するフィードバックループそのものです。この「時間軸」こそが、従来手法では捉えきれないものです。

CoTは十分な「説明」ではない

では、生成AIの推論過程を言葉で記述するCoT（Chain-of-Thought、思考の連鎖）を説明として用いればよいのでしょうか。「推論の過程を言葉で説明させれば、それが説明になる」というのは一見もっともな発想で、技術的にも容易です。

しかし、この発想には早くから疑義が呈されてきました。Turpinらは2023年に"Language Models Don't Always Say What They Think"（言語モデルは考えていることを必ずしも言わない）と題した研究で、CoTに書かれた理由がモデルの実際の判断要因を反映しないケースを実証しています [6]。

そしてその延長線上にあるAnthropicの実証研究 [7] は、この問題が（当時の）最新の推論モデルでも解消されていないことを示しました。この研究では、モデルに問題を解かせる際、問題文の中に答えにつながるヒント（例えば「答えはAである」という情報）をこっそり紛れ込ませました。モデルがヒントの有無によって回答を変えたなら、そのヒントは意思決定に影響したはずです。ところが、ヒントに影響されて回答を変えたケースのうち、モデルが「ヒントを参考にした」とCoTの中で正直に述べていた割合は、低い値にとどまりました。大半のケースでは、モデルはヒントの存在には触れないまま、別のもっともらしい理屈を組み立てて回答を正当化していたのです。

要するに、AIエージェント自身が語る「理由」は、実際の意思決定の因果を忠実に反映しているとは限らないということです。前述した、機械学習のXAIへの批判であった、もっともらしさと忠実さの混同 [4][5]が、形を変えて再来しているとも言えます。CoTは人間にとって読みやすく有用ですが、その読みやすさやもっともらしさと、実際の意思決定への忠実さとは、切り分けて扱う必要があります。

ただし、ここから「ならばCoTは見るだけ無駄だ」と結論するのも早計です。というのも、2025年に、OpenAI・Google DeepMind・Anthropicという競合関係にある組織の研究者40名以上が連名で、CoTの価値を擁護するポジションペーパーを発表しています [8]。ここでは、CoTは判断理由の忠実な「説明」にはならないとしても、モデルの思考の一部が人間に読める言葉として現れる数少ない「窓」であることに変わりないことが論じられています。実際、完璧には程遠いものの、モデルが不正やルールの抜け道を試みる意図がCoT上に現れ、検知の手がかりになった事例も報告されています。つまりCoTは「信頼できる説明」ではないが「監視に使える手がかり」ではあるというのがこの文書の立場です。しかも、この「窓」はAIモデルの開発の仕方によっては閉じられる恐れがあります。例えば結果の正しさだけを報酬とする強化学習を強くかけると、CoTが人間に読みにくい形式に変化したり、実際の判断に関わる情報がCoT上に現れにくくなったりする恐れがあります。だからこそAI業界全体でこの「窓」を保全すべきだ、とこのポジションペーパーは訴えています。

CoTを「正しい説明」として鵜呑みにするのも、「不忠実だから」と切り捨てるのも、どちらも誤りです。CoTはあくまで手がかりの1つとして扱い、ツール呼び出しのログなどと突き合わせて検証する、この発想が、次節以降で見る軌跡の診断につながっていきます。

軌跡を診断すると何が見えるのか

ここまでは考え方の話でした。では、実際にAIエージェントの軌跡を解析すると何が見えてくるのでしょうか。[2]は、AIエージェントのベンチマーク（航空券予約タスクのTAU-bench Airline [9]、Web操作タスクのAssistantBench [10]）を使った実験結果を提示しています。

ここで2つのベンチマークについて簡単に説明します。

TAU-bench Airlineとは、航空会社のカスタマーサービス業務を模したベンチマークです。AIエージェントは、シミュレートされた顧客と対話しながら、フライトの予約・変更・キャンセルといった依頼を、航空会社の業務ポリシー（変更可能な運賃の条件、手数料の規定など）を守りつつ、予約システムのツールを呼び出して処理します。最終的に予約データベースが正しい状態になったかどうかで成否が判定されるため、「ルールに縛られた業務システムを、対話しながら正しく操作できるか」を測るベンチマークだといえます。

一方のAssistantBenchとは、「ある条件を満たす店舗を探して情報をまとめる」といった、人間がやれば数分から数十分かかるような現実的な調べものタスクを、AIエージェントが実際のWebをブラウジングして解けるかを測るベンチマークです。複数のサイトを横断して情報を探し、組み合わせて答えに辿り着く必要があるため、「開かれたWebの中で正しい行動方針を選び続けられるか」が問われます。

[2]はこれらのベンチマーク上で、AIエージェントを実行しました。その実行ログを、対象のAIエージェントとは別のLLMが、ルーブリック（「意図との整合」「計画の遵守」「ツール選択の適切さ」「ツール実行の正しさ」「状態追跡の一貫性」「エラー回復」といった評価基準表）に沿って、項目ごとに採点していきました。

結果として、TAU-bench Airline では、「状態追跡の一貫性」の喪失が失敗と強く結びついていました。ユーザーの制約、予約情報、変更条件などを途中で見失い、そのズレが後続ステップに蓄積していくタイプの失敗です。一方、AssistantBench では、1つのツール選択や行動方針の誤りが失敗と強く結びついていました。ある時点で誤ったツールや行動方針を選ぶと、限られたステップ数のなかでは回復が難しくなるのです。

つまり、同じ「失敗」でも、その中身はタスクによって異なります。あるタスクでは状態のズレがゆっくり蓄積し、別のタスクでは1回の分岐ミスが実行全体を崩していました。この違いは、最終的な成功率だけを見ていても分かりません。必要なのは、実行の軌跡全体を見て、行動が失敗に向かった原因を確認することです。

[2]は、こうした軌跡ベースの説明を、単なる要約文ではなく、検証可能なセットとして扱うべきだとします。そのための単位として提示されているのが、MEP（Minimal Explanation Packet、最小説明パケット）です。

MEPとは、次の3つをひとまとまりにした説明単位です。

説明：何が起きたのかを人間が読める形で示す

文脈：説明を裏付けるログ・状態・参照情報

検証：説明が妥当かを確認するルーブリック等の評価基準

AIエージェントの振る舞いの説明は単独で完結するものではなく、「説明そのもの＋それを根拠づける文脈＋検証のためのツール」の三点セットであるべきだ、という提案です。航空券予約の例でいえば、「どの時点でどの判断を行い、どのツールを呼び出し、それが後続の状態にどう影響したか」を人間が読める形に整理したものが「説明」です。その裏付けとなる、顧客の依頼内容、各ステップの予約情報、ツールに渡した引数、返ってきた結果、状態更新のログが「文脈」にあたります。そして「どの評価基準が破られたかを示すルーブリック」が「検証」にあたります。

※ もっとも、ルーブリック評価をLLMに任せればそれで十分、というわけではありません。LLM-as-a-Judgeには、提示順序に影響される位置バイアス、長い回答を好む冗長性バイアス、自分と似た出力を好む自己強化バイアスなどが知られています [11]。したがって、LLMによる評価は、あくまで一次診断として使い、重要な判断についてはツールログ、状態更新、リプレイ、必要に応じた人手レビューで裏取りする必要があります。

AIエージェント時代の説明可能性

ここで、冒頭のXAIブームに立ち返ってみましょう。機械学習のXAIは「単一の予測を説明する」という課題にSHAP等の道具立てで応え、ビジネス領域でも活発に利用されました。

一方で、生成AI時代においては、説明すべき対象が、静的な予測から、時間をまたいで展開する自律的な行動連鎖へと移りました。SHAPが得意とする特徴量寄与の分解も、CoTが語る「理由」も、それだけではAIエージェントの軌跡全体を説明するには足りません。AIエージェントの失敗は、単一の要素にきれいに割り振れるものではなく、前の判断が次の判断を歪める連鎖の中で生まれます。したがって必要なのは、複数ステップにまたがる実行の因果を辿り、時間を通じてエラーの伝播を追跡できる、システムレベルの説明可能性です。AIエージェント時代の説明可能性は、単に人間に分かりやすい説明文を生成することではなく、後から第三者が実行過程を検証できる監査可能性を備えることに近づいていきます。

また、この説明可能性は、オブザーバビリティ（観測性）と不可分になります。SHAPは学習済みモデルに後付けする独立した分析でした。しかし軌跡を説明するには、まず軌跡が観測・記録されていなければならず、何が「逸脱」かを定義する評価基準がなければ、診断は成り立ちません。AIエージェント時代の説明可能性は、運用基盤の設計そのものと一体化していきます。

※ なお、本稿で扱ったのは、実行ログという外から観測できる証拠に基づく「振る舞いのレベル」での説明可能性です。これと並行して、モデル内部の回路や表現を直接解析することで判断の内部要因に迫る、メカニスティック・インタープリタビリティ（mechanistic interpretability）という研究潮流も発展しています。AIエージェントを駆動するのもLLMである以上、両者は無関係ではなく、同じ問いを異なる層から攻めるアプローチです。ただしモデル内部へのアクセスを前提とするため、APIを通じてモデルを利用する多くの企業にとって、まず手を動かせるのは本稿で述べた振る舞いレベルの基盤整備となります。

実務者が持ち帰るべき2つの示唆

では、AIエージェントを実際に業務へ組み込み、運用していく立場の人間は、この転換から何を持ち帰るべきでしょうか。2点に絞って整理します。

第一に、AIエージェントの振る舞いの説明性を担保するためには「軌跡」を評価する必要があるということです。最終的な出力が正しいかどうかを確認するだけでは、その説明責任を果たすことができません。人間が常時承認するのではなく、全体を監視し必要時に介入する Human-on-the-loop 型の監督を機能させるには、行動系列そのものを観測できる実行ログ・トレース基盤への投資が前提になります。これは後からのオプションではなく、最初から必要な機能として組み込むことが必須です。

では何をログとして基盤に残す必要があるのでしょうか。MEPに従うなら、実行ログ、状態更新、ツール呼び出し、観測結果などを「文脈」として残し、それらに基づいて「何が起きたのか」という説明を生成し、さらに「意図との整合」「ツール選択の適切さ」「状態追跡の一貫性」「エラー回復」といったルーブリックで検証する必要があります。こうしたことこそが、AIエージェントの説明可能性を支えるものとなります。

第二に、AIエージェントが語る「理由」を額面通りに受け取ってはならないということです。CoTによる説明は読みやすい一方で、実際の意思決定と食い違うことがあります [6][7]。「言ったこと」と「やったこと」のズレを明示的に表に出す仕組みがなければ、説明はかえって誤った安心感を生みかねません。一方で、CoTは捨てるべきものではなく、業界を挙げて保全が呼びかけられている貴重な観測できるログの一種でもあります [8]。まずは、AIエージェントが出力した理由説明や推論要約と、実際のツール呼び出しログ、状態更新、観測結果とを突き合わせてレビューする運用から始めるのが現実的です。

おわりに

「なぜこのAIはこう判断したのか」。XAIが10年前に立てたこの問いは、いまも生きています。ただし、問いの形が変わりました。私たちはこれから、「なぜこのAIエージェントは、この一連の行動を取り、そして失敗したのか」を問わなければなりません。

特徴量から行動へ、単一の予測から時間をまたぐ軌跡へと説明すべき対象が移ったとき、道具立ても、評価の基準も、監督のあり方も、作り直しが必要になります。これは研究者だけの課題ではありません。AIエージェントを現場に実装し、その自律性と説明責任の両立を引き受ける、すべての実務者の課題です。自律性と説明責任はトレードオフではありません。両立させる術を持つ者だけが、AIエージェントを本当に信頼できる領域へと送り込むことができます。

AIエージェントを「作って終わり」にせず、評価・監督・説明責任まで含めて業務に組み込むことが、今後の実装では不可欠になります。Velcore Consultingでは、そのための設計・実装・運用支援を行っています。

参照論文

[1] Zhu, J., Gandhi, D., Joshi, H., et al. (2026). Interpreting Agentic Systems: Beyond Model Explanations to System-Level Accountability. arXiv:2601.17168. https://arxiv.org/abs/2601.17168
[2] Chaduvula, S., Ho, J., Kim, K., et al. (2026). From Features to Actions: Explainability in Traditional and Agentic AI Systems. arXiv:2602.06841. https://arxiv.org/abs/2602.06841
[3] Lundberg, S. M., & Lee, S.-I. (2017). A Unified Approach to Interpreting Model Predictions. NeurIPS 2017. arXiv:1705.07874. https://arxiv.org/abs/1705.07874
[4] Lipton, Z. C. (2016). The Mythos of Model Interpretability. arXiv:1606.03490. https://arxiv.org/abs/1606.03490
[5] Rudin, C. (2019). Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead. Nature Machine Intelligence, 1, 206–215. arXiv:1811.10154. https://arxiv.org/abs/1811.10154
[6] Turpin, M., Michael, J., Perez, E., & Bowman, S. R. (2023). Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting. NeurIPS 2023. arXiv:2305.04388. https://arxiv.org/abs/2305.04388
[7] Chen, Y., Benton, J., Radhakrishnan, A., et al. (2025). Reasoning Models Don't Always Say What They Think. Anthropic. arXiv:2505.05410. https://arxiv.org/abs/2505.05410
[8] Korbak, T., Balesni, M., Barnes, E., et al. (2025). Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety. arXiv:2507.11473. https://arxiv.org/abs/2507.11473
[9] Yao, S., Shinn, N., Razavi, P., & Narasimhan, K. (2024). τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains. arXiv:2406.12045. https://arxiv.org/abs/2406.12045
[10] Yoran, O., Amouyal, S. J., Malaviya, C., et al. (2024). AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? EMNLP 2024. arXiv:2407.15711. https://arxiv.org/abs/2407.15711
[11] Gu, J., Jiang, X., Shi, Z., et al. (2024). A Survey on LLM-as-a-Judge. arXiv:2411.15594. https://arxiv.org/abs/2411.15594

AIエージェントの評価・監督・説明責任まで含めた設計・実装・運用支援について、
Velcore Consulting がご相談を承っています。

お問い合わせ

論考・レポート一覧へ戻る