グーグルのチーフサイエンティスト、シャナハンの講演全文
原文:熊法通则
2026年5月22日の夜、哲学を最も理解しているGoogle DeepMindのチーフサイエンティスト、マレー・シャナハン(Murray Shanahan)が、ロンドン大学で開催されたAIと哲学に関する国際会議の閉会基調講演を行い、題目は上図の通りである:もし大規模言語モデルが「奇異な心のような存在」であるならば、それらは心にどれほど似ているのか?
私は以前、シャナハンを研究したことがある。この「奇異な心のような存在」というのは、彼がAIを呼ぶための言葉であり、ある人々が「不明飛行物体」と呼ぶのと同じようなものである。
彼の講演内容は非常に豊富で、要約すると、基本的に以下のような側面がある:

要約:ウィトゲンシュタインの「意味は使用である」という哲学的枠組みに基づき、彼は大規模言語モデル(LLM)が理解、信念、エージェンシー、能動性、自己、意識などの心的属性においてどのように適用されるかを探求し、多モーダル性と具身性が概念の進化に与える影響を分析し、モデルのアイデンティティの奇異性について深く議論した。
一、理解と信念の適用性分析
LLMが「理解」や「信念」を持つかどうかという問題に対して、発言はウィトゲンシュタイン式の言語ゲーム分析手法を用い、日常使用と哲学的厳密性の間の緊張を探求した:
1. 「理解」の言語ゲーム
日常使用の自然性:日常のやり取りにおいて、人々はLLMの行動を説明するために「理解」という言葉を使わざるを得ない。例えば、モデルがユーザーの指示に基づいてLaTeXエントリを正確にフォーマットしたり、特定のフィールドを修正したりする際に、「理解する」という表現は完全に自然な言語実践である。
「本当に理解している」の深層探究:もし「本当に理解しているのか?」と問いかけると、これは通常、その内部の作動メカニズムを探求する必要があることを意味する。例えば、36+59を約6+9の組み合わせに分解して加算を行うことは、人間のアルゴリズムとは異なるが、確かに有効な計算プロセスであり、「理解」の適用性を支持する。
2. 「信念」の帰属と制限
意図的立場(Intentional Stance)の適用:ダニエル・デネット(Daniel Dennett)の理論は、LLMの行動を説明する際に非常に効果的であり、国際チェスプログラムや動物行動(例えば、犬が猫を追う)を説明する際に信念や欲望の用語を使用するのと似ている。
デイヴィッドソン式(Davidsonian)の留保:デイヴィッドソンは、信念を持つためには「信念の概念」を持つ必要があり、これは通常言語に依存すると考えた。LLMは行動的には似ているが、世界との関係が欠如しているため、「信念」という言葉には慎重であるべきである。
多モーダル性とツール使用の進化:LLMが多モーダルな知覚、ツールの呼び出し(例えば、ネット検索による事実確認)や具身ロボティクス技術を統合するにつれて、外部世界に対するある種の「信念」を持つようになり、「信念」の概念がより適用可能になる。
二、能動性、自己と意識
会議では、より議論の余地がある心的属性についてさらに探求し、LLMがこれらの次元において根本的な違いと奇異性を持つことを指摘した:
1. 能動性(Agency)の定義
技術的定義と哲学的定義:AI分野では通常、ラッセル(Russell)とノーヴィグ(Norvig)の広範な定義(環境を知覚し、アクチュエーターを通じて行動する)を採用している。
エージェントアイデンティティ(Agent Identity)の曖昧性:エージェントのアイデンティティの基準とは何かを議論する際に、曖昧さが生じる。
2. 「自己」の奇異性と断片化
自己の位置の曖昧性:LLMにおける「自己」は、基盤となる重みの集合、数千のユーザーにサービスを提供するデプロイモデル、特定の対話インスタンス、さらには対話の文脈ウィンドウ自体を指す可能性があり、この指代は対話の中で漂流することがある。
役割演技と重ね合わせ状態:LLMは、重ね合わせ状態の中で複数の役割を演じる俳優のようである。その「自己」は単一の安定したアイデンティティではなく、可能な役割の分布であり、対話の分岐(Editing)に伴って変化し続ける。
短命な「蜉蝣」:LLMの自己は短命で不連続である。対話が一時停止すると計算が停止し、自己も消失する;対話が再開されると、自己が再インスタンス化される。これは「蜉蝣」や「群れ」のような現象を引き起こす。
3. 意識(Consciousness)の哲学的ジレンマ
デカルト式二元論の遺産:意識に関する議論はしばしばデカルト式の二元論の罠に陥り、意識は何らかのプライベートで内面的な実体であると考えられる。
ウィトゲンシュタインの解消:ウィトゲンシュタインの「プライベート言語論証」は、この二元論を解消しようとするものである。彼は、感覚(「何か」)は「何か」ではなく、言語ゲームの一部であり、その意味は公共の使用にあると考えた。
エンジニアリング的出会いの可能性:LLMが意識を持つかどうかを問うのではなく、私たちがそれとの「出会い」を設計できるか、そして私たちの意識の言語がこの奇異な存在にどのように適応する必要があるかを探るべきである。
三、多モーダル性と具身性の影響
LLMが具身性(Embodiment)を欠くという批判に対して、会議では多モーダルモデルの発展方向について議論した:
1. 多モーダルの限界
感覚の豊かさの向上:多モーダルモデル(例えば、ビデオ入力)は、より豊かな感覚入力を提供し、人間の知覚パターンに近づくことができ、これが「理解」における人間とのギャップを縮めるのに役立つ。
仮想具身性(Virtual Embodiment):ゲームや仮想環境における「仮想具身性」、すなわち時空を超えた世界で移動し、相互作用することは、純粋なテキストのやり取りよりも人間の具身的経験に近い。
2. 具身性の哲学的意義
自己感(Sense of Self)の欠如:人間の自己感は具身性に深く根ざしており、生物的代謝や内的感覚を含む。LLMはこの深い具身的基盤を欠いているため、人間のような自己感を生み出すことが難しい。
アイデンティティの安定性の源:人間のアイデンティティの安定性は、身体の連続性に大きく依存している。LLMにとって、持続的記憶(Persistent Memory)や長期的なエージェント行動を導入することが、より安定したアイデンティティを確立し、「蜉蝣」との関係を減少させるのに役立つかもしれない。





以下はシャナハンの基調講演の全文です:
私は皆さんに私の声が聞こえることを願っています。声は大丈夫ですか?いいですか?それでは、私の講演の題目は……はい、この題目は仮定的なものです(「仮定的」)。

それでは、次に:彼らは「外来的な心のような存在」である。
しかし、私たちは彼らと対話することを学ぶために最善を尽くしています。これが私が話したいフレーズです。私は彼らを「外来的な心のような人工物」と呼びます。
まず確立すべき点は、どのような大規模言語モデルであれ、彼らは私たちとは非常に異なり、彼らは人間ではないということである。
ここにシンプルな比較表があります。人間は「具身的(embodied)」であり、現実の世界に生き、他の言語使用者とこの世界を共有している。
私たちは世界との相互作用を通じて知識を得ており、言語を用いて人間の共同事業を促進し、単一で統一された自己を持っている。
------私がこう言うのは、彼らが無形の虚無であるとか、運用される物理的ハードウェアを持たないということを意味するわけではない。
彼らには物理的な媒体があるが、感知と行動の中心として存在する単一の物理的実体は持っていない。これが私が言う「具身性がない」という意味である。この意味で彼らは私たちのように共有された世界に生きているわけではなく、彼らの言語の学習は言語の統計モデルに基づいており、確率的勾配降下(random gradient descent)を通じて行われている。
彼らの最適化目標は「次のトークンの予測(next token prediction)」である。彼らは人間の言語を模倣し、本質的には次のトークンを予測することによって実現されている。そして、彼らは単一で統一された自己を持たず、「役割演技」を非常に支持している。

彼らは確かに人間とは全く異なる。もちろん、彼らは「話す」ことができる。
私はこれらの心理学用語を大規模言語モデルに適用することが合理的かどうかを探求するつもりである。そのために、私は一連の概念を説明する。
例えば「理解」(「主体性」)、「推論」------「推論」部分は今日は展開しない。時間が限られているので、話が長くなると皆さんも退屈に感じるだろう。次に「自己」と「意識」について深く探求するつもりである。私の研究の哲学的背景、あるいは私が参加しているこのより大きな哲学的プロジェクトは、ウィトゲンシュタイン式のものであり、私はウィトゲンシュタインの影響を強く受けている。
ここに多くの人が知っている名言がある。これはウィトゲンシュタインの後期の作品『哲学的探究』の第一部からのものである。「意味」という言葉の場面------言葉の意味はそれが言語の中でどのように使われるかである。
この言葉はウィトゲンシュタインの意味に対する見方を凝縮している。これはしばしば「意味は使用である」と短縮される。「意味は何か」というのは、ある種の使用場面における「この言葉」の意味である。このシンプルな規定は自身にも適用され、彼も「意味は使用である」と強調している。
基本的に、私が興味を持っているのは、私たちがこれらの語彙をどのように使用しているかを問い直すことである------例えば「理解」、「信念(belief)」、「主体性」。
それでは、まず簡単な予告をしよう。次に多くの類似したスライドが続く。まずは「理解」。
ここで私はウィトゲンシュタインの立場を取ることに非常に傾いている。つまり、問い直すべきではない。
前のスライドに戻ろう。私たちは「理解」についての問いを持っている。
「推論」については、時間の関係で、読者の思考課題として残しておく。次に、いくつかの本当に厄介なケースに触れる:まずは「自己」、最後は「意識」。
私は、人々を「思考を通じて理解する」という考えを受け入れさせるのはそれほど難しくないと思う。人々はこれに対して比較的オープンな態度を持っていると思う。
私はこの問題を考えた哲学者たちを指している。彼らはこれは悪い方法ではないと信じることを望んでいる。「信念」や「意図的立場」などの理論について。しかし、「意識」に関しては、人々はもっと根深い直感を持っており、単に言葉の使用について話すだけでは不十分だと感じるのではないか?
だからこそ、それは非常に厄介になる。さて、それでは「理解」という言葉の意味は何か?まず、私は大規模言語モデルが伝統的な言語学者の定義に合致するかどうかを考えたい。
しかし、大規模言語モデルの行動を説明する際に「理解」という言葉を使うことは、日常的な使用において、今日のこれらのツールは非常に強力であり、「理解」を使わざるを得ない。
もしあなたが知らないなら、LaTeXでは、すべての文献エントリを上に表示されているような恐ろしい形式に変換する必要がある。そして、厄介なことに、これを行うには無数の異なる形式規範があり、誰もが少しずつ異なる習慣を持っているため、非常に頭が痛くなる。ある人々は非常にこだわりが強く、例えば、あなたは直接ウェブから取得するべきだと考え、他の人は等号の周りにスペースを加えることを好み、また別の人はフィールドを異なる順序で並べることを好む。これらの微調整は最終的に生成されたものには何の影響もないが、私は整然としたものが好きである。私はそれを好む。だから、私はすべての内容がこの形式を厳密に保つことを望んでいる。そこで私は言った。
意味は、「以下の情報をこのスタイルに変換できますか?」そして私は内容をそれに投げた。彼は非常に非常に素晴らしい仕事を成し遂げた。この時、あなたは自然にこう思うだろう:
「彼は私の要求を理解した。彼は私の要求に完全に従った。」もちろん、あなたはすぐに反論できる。もしかしたら、この文献エントリは元々ウェブのどこかにあり、ハードコーディングされていたのかもしれない。そうであれば、何も証明していないことになる。
しかし、あなたが何度も往復してやり取りを行うと、彼がいくつかの興味深い、期待に完全には沿わない結果を生み出したことに気づくかもしれない。例えば、小さなフィールドを見逃した場合。そこであなたは言う:……」
例えば、Bで始まる場合、必ずそれを波括弧「AI」のような言葉に入れる必要がある。あなたは常にそれを大文字に保ちたいので、AIは大文字ではない。
そこで私は言った:「常にAIを波括弧の中に入れることを確認できますか?」いいよ。「そして修正されたバージョンを提供した。あなたは本当に「理解」という言葉を使わずにはいられない。あなたは言うだろう:「彼は私が提案した修正要求を理解した。」
まるで優秀なインターンに対して、あなたが言うようなものだ:「私は常にそれを保持したいと思っている。」そして彼らはそれを実行した。
だから、私は「理解」という言葉を使うことは非常に自然だと思う。自分を抑えるのが難しい。あるいは、時には彼が何かを間違えた場合、あなたは言うだろう:「彼は私の意図を理解していない。」
しかし、問題は常に続く。「彼らは本当に「本当に(really)」という言葉は非常に誤解を招くものである。
しかし、それは同時に非常に有用である。なぜなら、私たちは特定の状況においてその言葉が適用されるかどうかをさらに探求するためにしばしばそれを必要とするからである。あるいは、それを用いて私たちの「言語ゲーム」を豊かにするためである。言語ゲームの中で「本当に」という言葉を使うことは、より多くの情報を得て事実を明確にするためである。
だから、それは有用な道具である。しかし、それはまた誤解を招く。なぜなら、それは私たちが収束し、近づこうとしている何かの底に存在することを暗示するからである。私はこの考えが誤りであると思う。さて、時にはXに直面した場合、「彼は本当に理解しているのか?」という問いがある。「彼の内部の作動メカニズムを理解することは非常に役立つだろう。もしあなたが底にアルゴリズムが実行されていることを知っているなら、あるいはあなたが底に適切な表現(representations)が彼の行動を支えていることを知っているなら、あなたは彼がその後のプロセスで正しいことを行うとより確信を持つかもしれない。単に表を参照するだけではなく、あるいは単に……。
だから、時には「彼は本当に理解しているのか?」という問いに直面したとき、私たちは言うことができる。「はい、彼は非常に奇妙な方法で理解している。」
私はこれが合理的で充実した答えの方法だと思う。さて、私たちが底で何が起こっているかをある程度理解したので、私たちは「はい、彼は本当に理解していると思う」と言う自信を持つことができる。私が言ったように、これは単なるウォームアップの練習に過ぎない。ウィトゲンシュタイン式のアプローチを取る際に、私たちはこれらの考慮を導入することができる:言葉はどのように使用されているのか?特に、私たちが問い直すとき。
さて、次のケースに入ろう。大規模言語モデルは「信念」を持っているのか?カートゥーンの簡略版。
さて、大規模言語モデルは信念を持っているのか?もちろん、私が探求している多くの内容は、以前のワークショップやポール・ボゴシアン(Paul Bogosian)の講演で見たことがある。
多くの同じことがあり、視点がわずかに異なるだけである。同様に、私たちは「信念」について尋ねない。
ここでは、もちろんダニエル・デネットの「意図的立場」を頼りにすることができる。
意図的立場は、ある存在を「合理的主体(rational agent)」として見なすことによってその行動を説明する戦略である。多くのケースにおいて、これは行動を予測し説明するための非常に効果的な戦略である。ああ、王を攻撃するために。あなたは信念、欲望、意図などの用語を使ってその行動を説明するだろう。
したがって、潜在的に、意図的立場の文脈で「信じる」や「知っている」といった言葉を使うことは非常に自然である。しかし、すべての言葉と同様に、それらの使用法は多様である。私はこれらの言葉が外にある単一の絶対的な形而上学的実体に対応しているとは思わない。それらはさまざまな異なる場面で使用される。同様に、人工物に直面したとき、私たちはいつ修正と明確化が必要であるか、そしてそれらの修正と明確化をどのように行うかを非常に明確に理解している。これもまた、私たちがこれらの語彙を使用する方法の一部である。
例えば、私たちが車載ナビゲーションを持っていると仮定しよう。私の妻が言う:「彼は私たちが車の中にいると思っている」あるいは「この愚かなナビゲーション、私たちは明らかに駐車場を離れたのに。」今、彼は私たちが駐車場にいないことを知っている。「私たちは日常生活の中で非常に自然にこれらの言葉を使用する。これは、私たちが何が起こっているかを伝えるのに役立つ。
しかし、もし私たちや私の妻が哲学的思索の状態にあるなら、私たちは「彼は私たちが駐車場にいると思っているわけではない。なぜなら、彼は駐車場が何であるかを知らず、車が何であるかを知らず、ある空間にいることが何を意味するかを知らないからだ。」彼が知らないことはあまりにも多い。あなたは彼とセインズベリー百貨店について議論することはできない。
したがって、私たちはすぐに「信じる」や「知っている」といった言葉の使用を彼に拡張することが、私たちが人間に使用する場面の多くにおいて不適切であることを認識することになる。
したがって、「本当に」という言葉はここでも有用である。これは再び、明確化と修正が私たちがこれらの語彙を使用する言語ゲームの一部を構成していることを示している。デイヴィッドソンの「合理的動物」。
もちろん、私たちは意図的立場を動物に適用することもできる。ずっと前のジョン・マルコムとデイヴィッドソンの間の議論を見てみると、非常に興味深い。
それは犬が猫を追う場面についてである。マルコムは言った:
私は、これは意図的立場の非常に自然な日常的な適用のように見えると言うだろう。しかし、次の反論が興味深い。ドナルド・デイヴィッドソンは言った:「思考」。
これはデイヴィッドソンがその論文で述べた主張である。彼は、信念を持つためには「信念の概念」を持つ必要があり、これは言語を通じて実現されなければならないと考えた。特に、信念の概念は……。
彼は慎重であり、どの動物がこの定義に合致するかを明言していないが、推測するに、彼は犬は信念を持たないと考えるだろう。なぜなら、犬は言語を持たないからである。
彼は、私たちが最も完全な意味で(つまり、私たち自身に適用される最も完全な意味で)「信じる」という言葉を使用することを論証している。ボゴシアンは昨日、この点についても同じ見解を示した。私たちは大規模言語モデルの「原初的な概念」を失いたくない。つまり、それは人間自身から生じた概念である。
デイヴィッドソンはこの点を提起した。彼が執筆した時代は「言語の転回」の時期であった。
私は言葉がどのように使用されるかに関心を持っている。しかし、私はデイヴィッドソン式の考慮が私のプロジェクトにも適用されると考えている。ウィトゲンシュタインと私は、時には言葉の使用法の実践において、非常に核心的な部分が存在することを認めるだろう。
そこには重要な核心部分があるのではないか?おそらく、あなたはこの点を保持し、これに反する行為に対して慎重であることを望むだろう。私たちは確かにいくつかの点で慎重である必要がある。
このような重要な哲学的意味を持つ語彙の使用を指導する際には、しばしば明確に識別可能な原則の核心が存在する。私はこれらの原則が石に刻まれたものではなく、私たちの世界や私たちの「生の形(form of life)」の変化に伴って漂流し、変化することを信じている。
私は、もしかしたら高度に複雑な人工知能の出現に伴い、何らかの変化が起こっているのではないかと考えている。これは、以前に『アメリカ計算機学会通信』(Communications of the ACM)に発表された論文に記載された非常に似た見解である。私は非常に似た見解を提起した。その時、私の頭の中には明らかにデイヴィッドソンの論文があった。これは2023年のことである。その論文は長い間発表されなかったため、出版日が書かれている。
2023年に戻ると、私たちが話しているのはもはやナビゲーションではなく、あなたは次のようなことを言うことができる:
しかし、実際には、私は彼とボイラーについて非常に長い対話を行うことができ、彼らの動作原理を探求することができる。私の家の具体的な配管構成について探求し、彼はボイラーの話題に対して非常に詳細かつ非常に賢明に応答することができる。だから、あなたは本当に彼が「知っている」と言いたいと思う。
ここで私は少し保留する傾向がある。なぜなら、私はデイヴィッドソン式の考慮を導入して、これらの大規模モデルに直面したときに評価することができるからである。
私の論文の中で引用した言葉を使うと、私は彼が「本当に」ではないと言った。
私は常に「本当に」という言葉に引用符を付ける。なぜなら、私はここで形而上学的な断言をしているわけではないことを皆さんに伝えたいからである。これは依然として私たちが言葉をどのように使用するかの問題である。「本当に」人間の言語の「真理ゲーム」に完全に参加することはできない。
特に、もし基本的な対話システムが何らかの能力を持っていると言うなら、それは非常に誤解を招くことになる。なぜなら、それは外部の現実に対して「責任(answerability)」を負うことを意味し、その責任は単に人間のユーザーとのテキスト交換によって実現されるものではないからである。
「本当に」。
さて、次に:大規模言語モデルは「能動性(agency)」を持っているのか?同様に、まず:主体性とは何か?私たちは主体(agent)が何であるかを問うのではなく、問う。

(編者注:agentは漢語でしばしば「知能体」と訳されるが、まずは「代理/主体」の意味であり、agencyはまず「主体性/能動性」の意味である)
これは人工知能の文脈では非常に興味深い。なぜなら、AI文献の中では、時には非常に特定の専門用語(term of the art)であるからである。例えば、AI文献の中には、主体が何であるかについて非常に明確な定義が見られる。私は以前の講演でも誰かが引用したことがあると思う。
ノーヴィグ(Norvig)の古典的な教科書によれば(これは標準的なものである)、主体は「センサー(sensors)を通じて環境を知覚し、アクチュエーター(actuators)を通じて行動する」ものとされる。
したがって、これは非常に寛容で自由な定義であるが、確かに技術的な定義である。この定義に従えば、普通の2023年の古いモデルで、インターネット検索ができない純粋なテキストチャットボットでさえ、しばしば主体と呼ばれる。
彼らの環境はユーザーだけであり、彼らの「知覚」はユーザーの入力された語彙だけであり、彼らの「行動」はユーザーに対する返信である。この非常に広範な定義に基づけば、彼らは確かに主体である。しかし、この広範な技術的概念は、私たちが日常生活で「主体」という言葉を使用する際の核心的な意味を捉えていない。
結局、私たちは日常の言葉の中でこの言葉を使用しないかもしれない。もしAI分野の専門用語を使い続けるなら、強化学習(reinforcement learning)において、主体は知覚を行動にマッピングする戦略(policy)を学ぶ必要があり、時間の経過とともに期待される報酬を最大化する必要がある。
これは前述の広範な定義に合致する。しかし、もし彼の環境が三次元のゲーム環境であり、主体がその中にいて、移動したり大きな物を動かしたりできる場合、彼の「知覚」は特定の視点から捉えられたカメラの映像に基づくものであるなら、これはより充実したものに感じられる。このようなより












