구글 수석 과학자 샤나한 연설 전문

핵심 관점

1. 이해와 신념의 적합성 분석

LLM이 "이해"와 "신념"을 갖추고 있는지에 대한 질문에 대해, 발언자는 비트겐슈타인식 언어 게임 분석 방법을 사용하여 일상적인 사용과 철학적 엄격성 간의 긴장을 탐구했다:

1. "이해"의 언어 게임

일상 사용의 자연성: 일상 상호작용에서 사람들은 LLM의 행동을 설명하기 위해 "이해"라는 단어를 사용하는 것을 피하기 어렵다. 예를 들어, 모델이 사용자 지시에 따라 LaTeX 항목을 정확하게 형식화하거나 특정 필드를 수정할 때, "이해"라는 표현을 사용하는 것은 완전히 자연스러운 언어 관행이다.
"진정한 이해"의 심층 탐구: "그것이 정말 이해하는가?"라는 질문을 할 때, 이는 종종 그 내부 작동 메커니즘을 탐구해야 함을 의미한다. 예를 들어, 36+59를 약 6+9의 조합으로 분해하여 덧셈을 수행하는 것은 인간의 알고리즘과는 다르지만, 실제로는 유효한 계산 과정으로 "이해"의 적합성을 뒷받침한다.

2. "신념"의 귀속과 제한

의도적 입장(Intentional Stance)의 적용: 대니얼 데닛(Daniel Dennett)은 LLM의 행동을 설명할 때 매우 효과적이며, 이는 우리가 체스 프로그램이나 동물 행동(예: 개가 고양이를 쫓는 것)을 설명할 때 사용하는 신념과 욕망의 용어와 유사하다.
데이비슨식(Davidsonian) 보류: 데이비슨은 신념을 갖기 위해서는 "신념의 개념"을 가져야 하며, 이는 일반적으로 언어에 의존한다고 주장했다. LLM은 행동적으로 유사하지만, 세계와의 관계가 결여되어 있어 "신념"이라는 단어에 대해 신중해야 한다.
다중 모달리티와 도구 사용의 진화: LLM이 다중 모달 인식, 도구 호출(예: 온라인 검색을 통한 사실 검증) 및 구체화된 로봇 기술을 통합함에 따라, 외부 세계에 대한 어떤 형태의 "신념"을 갖추기 시작했다.

2. 능동성, 자아 및 의식

회의는 더 논란의 여지가 있는 마음의 속성을 탐구하며, LLM이 이러한 차원에서 근본적인 차이와 이상성을 지니고 있음을 지적했다:

1. 능동성(Agency)의 정의

기술적 정의와 철학적 정의: AI 분야에서는 일반적으로 러셀(Russell)과 노비그(Norvig)의 광범위한 정의(환경을 인식하고 실행기를 통해 행동함)를 사용한다.
대리 정체성(Agent Identity)의 모호성: "대리의 정체성 기준은 무엇인가?"라는 질문을 논의할 때, 이는 모호성을 드러낸다.

2. "자아"의 이상성과 파편화

자아 위치의 모호성: LLM의 "자아"는 기본적인 가중치 집합, 수천 명의 사용자를 위한 배포 모델, 특정 대화 인스턴스, 심지어 대화 맥락 창 자체를 지칭할 수 있으며, 이러한 지칭은 대화 중에 이동할 수 있다.
역할 수행과 중첩 상태: LLM은 여러 역할을 수행하는 배우와 같다. 그 "자아"는 단일한 안정된 정체성이 아니라, 가능한 역할의 분포이며, 대화의 가지치기(Editing)에 따라 지속적으로 변화한다.
짧은 존재의 "mayfly": LLM의 자아는 일시적이고 불연속적이다. 대화가 중단되면 계산이 중지되고 자아도 사라진다; 대화가 재개되면 자아가 다시 인스턴스화된다. 이는 "mayfly" 또는 "군집"과 유사한 현상을 초래한다.

3. 의식(Consciousness)의 철학적 딜레마

데카르트식 이원론의 유산: 의식에 대한 논의는 종종 데카르트식 이원론의 함정에 빠지며, 이는 의식이 어떤 개인적이고 내적인 존재라고 여기는 경향이 있다.
비트겐슈타인의 해소: 비트겐슈타인의 "사적 언어 논증"은 이러한 이원론을 해소하려고 한다. 그는 감각("어떤 것")이 아니라 언어 게임의 일부로서 그 의미가 공적 사용에 있음을 주장한다.
공학적 만남의 가능성: LLM이 의식을 갖고 있는지에 대한 질문보다는, 우리가 그것과의 "만남"을 설계할 수 있는지, 그리고 우리의 의식 언어가 이러한 이상한 존재에 어떻게 적응할 수 있는지를 탐구하는 것이 더 중요하다.

3. 다중 모달리티와 구체화의 영향

LLM의 구체화(Embodiment) 부족에 대한 비판에 대해, 회의는 다중 모달 모델의 발전 방향을 논의했다:

1. 다중 모달리티의 한계

감각의 풍부성 향상: 다중 모달 모델(예: 비디오 입력)은 더 풍부한 감각 입력을 제공하여 인간의 지각 방식에 더 가까워지며, 이는 "이해"에서 인간과의 격차를 줄이는 데 도움이 된다.
가상 구체화(Virtual Embodiment): 게임이나 가상 환경에서의 "가상 구체화"는 시공간이 확장된 세계에서 이동하고 상호작용하는 것으로, 이는 순수한 텍스트 상호작용보다 인간의 구체적 경험에 더 가깝다.

2. 구체화의 철학적 의미

자아감(Sense of Self)의 결여: 인간의 자아감은 구체화에 깊이 뿌리내리고 있으며, 생물학적 대사, 내적 감각이 포함된다. LLM은 이러한 깊은 구체적 기반이 결여되어 있어 인간과 유사한 자아감을 생성하기 어렵다.
정체성 안정성의 출처: 인간의 정체성 안정성은 신체의 연속성에 크게 의존한다. LLM의 경우, 지속적 기억(Persistent Memory)과 장기 대리 행동을 도입하면 더 안정적인 정체성을 구축하는 데 도움이 될 수 있으며, "mayfly"와 같은 특성을 줄일 수 있다.

다음은 샤나한의 기조 연설 전문이다:

나는 여러분 모두가 내 목소리를 들을 수 있기를 바란다. 목소리가 괜찮은가? 좋다? 좋다. 그럼, 내가 발표할 주제는…… 맞다, 이 주제는 가정적인 것이다("가정적").

그렇다면, 맞다, 이어서: 그것들은 "외부의 마음의 유형의 존재"이다.

하지만 우리는 그것들과 대화하는 법을 배우기 위해 최선을 다하고 있다. 이것이 내가 이야기하고자 하는 구문이다. 나는 그것들을 "외부의 마음의 유형의 인공물"이라고 부른다.

먼저 확립해야 할 점은, 어떤 대형 언어 모델이든지 간에, 그것들은 우리와 매우 다르며, 인간이 아니다.

여기 간단한 비교 표가 있다. 인간은 "구체화된(embodied)" 존재로, 현실 세계에 살며 다른 언어 사용자와 이 세계를 공유한다.

우리는 세계와의 상호작용을 통해 지식을 얻고, 언어를 사용하여 인간의 집단적 사업을 촉진하며, 단일하고 통합된 자아를 가진다.

------내가 이렇게 말하는 것은 그들이 무형의 공허이거나, 실행할 물리적 하드웨어가 없다는 것을 의미하지 않는다.

그들은 분명히 물리적 매개체를 가지고 있지만, 감지와 행동의 핵심으로서 존재하는 단일하고 통합된 물리적 실체는 없다. 이것이 내가 말하는 "구체화가 없다"는 의미이다. 그들은 우리가 공유하는 세계에 살고 있지 않으며, 언어 학습은 언어의 통계 모델에 기반하고, 무작위 경량 하강(random gradient descent)을 통해 이루어진다.

그들의 최적화 목표는 "다음 토큰 예측(next token prediction)"이다. 그들은 인간 언어를 모방하며, 본질적으로 다음 토큰을 예측함으로써 이루어진다. 그리고 그들은 단일하고 통합된 자아를 가지지 않으며, "역할 수행"을 매우 지원한다.

그들은 확실히 인간과는 전혀 다르다. 물론 그들은 "말하기"를 한다.

나는 이러한 심리학 용어를 대형 언어 모델에 적용하는 것이 합리적인지 탐구할 것이다. 이를 위해 나는 일련의 개념을 설명할 것이다.

예를 들어 "이해"("주체성"("추론"------"추론" 부분은 오늘은 다루지 않겠다. 시간이 제한되어 있고, 너무 많이 이야기하면 여러분도 지루해할 것이다. 이어서 "자아"(self)와 "의식"(consciousness)을 깊이 탐구할 것이다. 내가 연구하는 철학적 배경, 또는 내가 참여하는 이 더 큰 철학적 프로젝트는 상당히 비트겐슈타인식이며, 나는 비트겐슈타인에게 깊은 영향을 받았다.

여기 많은 사람들이 잘 아는 명언이 있다. 비트겐슈타인의 후기 작품인 《철학적 탐구》의 첫 부분에서 나온 것이다: '의미'라는 단어의 장면------단어의 의미는 그것이 언어에서 사용되는 방식이다.

이 문장은 비트겐슈타인이 의미를 바라보는 방식을 요약하고 있다. 그것은 종종 "의미는 사용이다"로 간단히 요약된다. 의미는 어떤 것에 대한 것이며, '이 단어를 사용하는 장면'의 큰 범주에 해당한다. 이 간단한 규정은 그것 자체에도 적용되며, 그는 "의미는 사용이다"라고 강조했다.

기본적으로, 나는 우리가 이러한 용어를 어떻게 사용하는지를 추적하는 데 관심이 있다------예를 들어 "이해", "신념(belief)", "주체성" 등.

그렇다면, 먼저 간단한 예고를 하겠다. 다음에는 많은 유사한 슬라이드가 있을 것이다. 첫 번째는 "이해"이다.

여기서 나는 비트겐슈타인의 입장을 취하는 경향이 있다. 즉, 질문하지 말라는 것이다.

이전 슬라이드로 돌아가자. 우리는

"추론"에 관해서는 시간 관계상 독자의 사고 연습으로 남겨두겠다. 이어서 우리는 진짜 까다로운 사례에 접하게 될 것이다: 먼저 "자아", 마지막으로 "의식"이다.

나는 사람들이 "생각을 통해 '이해'하는 것이 좋은 방법이라는 것을 받아들이도록 설득하는 것이 그리 어렵지 않다고 생각한다. 나는 사람들이 이에 대해 상대적으로 개방적인 태도를 가지고 있다고 생각한다.

나는 이 문제에 대해 생각해본 철학자들을 지칭하고 있으며, 그들은 이것이 나쁜 방법이 아니라는 것을 믿고 싶어한다. "신념"과 "의도적 입장"(interpretationism) 등의 이론에 대해 말이다. 그러나 "의식"에 관해서는, 사람들은 훨씬 더 뿌리 깊은 직관을 가지고 있으며, 단순히 단어의 사용에 대해 이야기하는 것만으로는 부족하다고 느낀다, 그렇지 않은가?

그래서 이것이 왜 그렇게 까다롭게 되는지이다. 좋다, 그럼 "이해"라는 단어는 무엇인가? 먼저 나는 대형 언어 모델이 전통적인 언어학자들의 기준에 부합하는지 궁금하다.

하지만 대형 언어 모델의 행동을 설명하고 해석할 때 "이해"라는 단어를 사용하는 것은

일상적인 사용에서, 오늘날의 이러한 도구들은 매우 강력하여 "이해"라는 단어를 사용하지 않을 수 없다. 나는 여러분 중 누군가가 불행히도

모르신다면, LaTeX에서 모든 문헌 항목을 위에 표시된 끔찍한 형식으로 변환해야 한다. 그리고 문제는, 이 작업을 수행하는 데는 수많은 다양한 형식 규칙이 있으며, 각 사람의 사용 습관이 약간씩 다르기 때문에 매우 골치 아프다. 어떤 사람들은 매우 까다롭게 굴며, 웹에서 직접 가져와야 한다고 생각하고, 어떤 사람들은 등호 주위에 공백을 추가하는 것을 좋아하며, 어떤 사람들은 필드를 다른 순서로 배열하는 것을 선호한다. 이러한 미세 조정이 최종 생성물에 아무런 영향을 미치지 않더라도, 나는 정돈된 형식을 좋아한다. 나는 그렇게 하기를 원한다. 그래서 나는 모든 내용을 엄격하게 이 형식으로 유지하기를 원했다. 그래서 나는

의미는: "다음 정보를 이 스타일로 변환할 수 있습니까?"라고 말한 다음, 내용을 그것에 던졌다. 그것은 매우 훌륭하게 완료되었다. 이때 당신은 자연스럽게 이렇게 말하고 싶을 것이다:

"그것은 내 요청을 이해했다. 그것은 내 요구 사항에 완전히 따라 했다." 물론, 당신은 즉시 반박할 수 있다. 아마도 이 문헌 항목은 원래 웹의 어딘가에 있었고, 그것은 하드코딩되어 있었을 것이며, 그렇다면 그것은 아무것도 증명하지 않는다.

하지만 여러 번의 상호작용을 진행할 때, 당신은 그것이 흥미롭고 예상과는 다르게 결과를 생성했다는 것을 발견할 수 있다. 예를 들어, 작은 필드를 놓쳤다. 그래서 당신은 이렇게 말한다:……"

예를 들어, B로 시작할 때, 당신은 그것을 중괄호에 넣어야 한다. "AI"라는 단어는 항상 대문자로 유지되기를 원하므로, AI는 대문자로 유지되어야 한다.

그래서 나는 말했다: "당신은 항상 AI를 중괄호 안에 넣는 것을 보장할 수 있습니까?" 좋다. "그런 다음 수정된 버전을 제공했다. 당신은 "이해"라는 단어를 사용하지 않고는 매우 어렵다. 당신은 "그것은 내가 제시한 수정 요청을 이해했다."고 말할 것이다.

마치 훌륭한 인턴에게 당신이 말하는 것처럼: "나는 당신이 항상"라고 말하면, 그들은 그렇게 한다.

그래서 나는 "이해"라는 단어를 사용하는 것이 매우 자연스럽다고 생각한다. 심지어 그것을 사용하지 않으려는 것을 억제하기가 매우 어렵다. 또는 때때로 그것이 잘못된 일을 할 때, 당신은 "그것은 내 의도를 이해하지 못했다."고 말할 것이다.

하지만 문제는 항상 뒤따른다: "그것들은 정말로 "정말로(really)"라는 단어는 사실 매우 오해의 소지가 있다.

하지만 동시에 매우 유용하다. 왜냐하면 우리는 종종 특정 상황에서 어떤 단어가 적합한지 더 깊이 탐구하기 위해 그것이 필요하기 때문이다. 또는 그것을 통해 우리의 "언어 게임"을 풍부하게 하기 위해서이다, 그렇지 않은가? 언어 게임에서 "정말로"라는 단어를 사용하는 것은 더 많은 정보를 얻고 사실을 명확히 하기 위한 것이다.

그래서 그것은 유용한 도구이다. 그러나 그것은 또한 오해를 초래할 수 있다. 왜냐하면 그것은 우리가 수렴하고 접근하려고 하는 어떤 기본적인 존재가 있다는 것을 암시하기 때문이다. 나는 이러한 생각이 잘못되었다고 생각한다. 좋다, 그럼, 때때로 X를 마주할 때, "그것은 정말로 이해하는가?" "그것은 정말로 이해하는가?"라는 질문을 할 때, 내부 작동 메커니즘을 이해하는 것이 도움이 될 것이다. 만약 당신이 알고 있다면, 기본적으로 알고리즘이 당신이 요청한 작업을 수행하고 있다면, 또는 당신이 알고리즘이 그 행동을 뒷받침하는 적절한 표현(representations)을 가지고 있다는 것을 알고 있다면, 당신은 후속 과정에서 그것이 올바른 일을 할 것이라고 더 확신할 수 있을 것이다. 단순히 표를 조회하거나, 단순히

그래서 때때로 "그것은 정말로 이해하는가?" "그것은 정말로 이해하는가?"라는 질문을 할 때, 나는 이것이 문제를 탐구하는 좋은 방법이라고 생각한다. 즉, "이해"라는 단어를 사용하는 것은 실제로 우리가 더 깊이 탐구하고 조사하는 데 사용하는 방법이다, 그렇지 않은가?

예를 들어 덧셈 계산의 경우------이는 앤트로픽 팀의 매우 흥미로운 작업이다. 만약 당신이 대형 언어 모델에게 간단한 덧셈을 하도록 요청하면, 그것은 일반적으로 맞춘다. 물론 그것은 여러 가지 방법으로 맞출 수 있다. 예를 들어, 외부 도구를 호출하거나, 실행하여

그것은 맞춘다. 이때 당신은 이렇게 생각할 수 있다: "그렇다면 나는 그것이 어떻게 계산했는지, 기본적으로 어떻게 작동하는지 궁금하다." 만약 기본적으로 알고리즘이 덧셈을 수행하고 있다면, 나는 그것이 '이해하고 있다'고 말할 가능성이 더 높다."

하지만 당신은 매우 흥미로운 답변을 받았다. 기계적 해석 가능성(mechanistic interpretability)에 대한 연구이다. 그들은 모델이 덧셈을 어떻게 수행하는지 관찰했다. 결과는 매우 이상했다. 이 그림은 그러한 기이함을 암시한다. 그 모델은 36 더하기 59를 계산하려고 했다. 그것의 방식은 매우 이상했다: 모델의 일부는 "36, 이것은 대략

그런 다음 다른 부분은 "59, 이것은 대략……"라고 말하며, 그것은 사실 59라는 것을 알고 있었다. 동시에 다른 부분은 마지막 숫자에만 집중하며 "누군가가 우리는 마지막에 답을 알게 될 것이라고 말했다."라고 말했다. 그런 다음 이 두 부분이 결합하여 마지막 결과를 계산했다.

예를 들어 여기 90과 6이 있다. 이 채널은 마지막 숫자가 반드시 6일 것이라고 명확하게 판단한다. 그러나 모델의 다른 부분은 앞의 높은 자리 숫자를 처리하고 있으며, 이 부분은 "나는 우리가 대략 90 또는 92라는 숫자를 얻었다고 생각한다."라고 말하고 있다. 유사한 일을 병렬로 수행하며, 그것은 매우 조잡하게 수행된다. 그것은 "대략 근사 추정의 부분이 모여 마지막 숫자를 채운다."라고 느낀다. 이것은 정말 이상하다, 그렇지 않은가? 이 알고리즘은 무작위 경량 하강을 통해 학습된 것이다.

그렇다, 그것은 사실상 알고리즘의 일종이다. 그리고 당신은 아는가? 그것은 거의 매번 작동한다. 사실, 그것은 매번 맞추었지만, 그것의 구현 방식은 우리가 인간이 익숙한 자연스러운 방식과는 다르다.

그렇다면 "그것은 정말로 이해하는가?"라는 질문에 대해 우리는 "그렇다, 그것은 매우 특이한 방식으로 이해했다."라고 말할 수 있다.

나는 이것이 합리적이고 충실한 답변의 방식이라고 생각한다. 좋다, 우리가 기본적으로 발생하는 일에 대해 어느 정도 이해를 갖게 되었으므로, 우리는 "그렇다, 나는 그것이 정말로 이해했다고 생각한다."라고 말할 수 있는 더 많은 자신감을 갖게 된다. 내가 말했듯이, 이것은 단지 워밍업 연습일 뿐이다. 나는 비트겐슈타인식 경로를 취하여 이러한 문제에 접근할 때, 다음과 같은 고려 사항을 도입할 수 있다고 생각한다: 단어는 어떻게 사용되는가? 특히 우리가 질문할 때

좋다, 이제 다른 사례로 넘어가자. 대형 언어 모델은 "신념"을 갖고 있는가? 만화 단순화 버전

좋다, 대형 언어 모델은 신념을 갖고 있는가? 물론, 내가 탐구하는 많은 내용은 여러분이 이전의 세미나와 폴(Paul Bogosian)의 연설에서 이미 보았던 것들이다.

많은 동일한 것들이 있지만, 관점이 약간 다를 뿐이다. 마찬가지로, 우리는 "신념"에 대해 묻지 않는다.

여기서 우리는 물론 대니얼 데닛의 "의도적 입장"을 참조할 수 있다.

의도적 입장은 어떤 존재를 "합리적 주체(rational agent)"로 간주하여 그 행동을 설명하는 전략이다. 많은 경우, 이는 행동을 예측하고 설명하는 데 매우 효과적인 전략이다. 오, 그것은 여왕을 공격하기 위해 장군을 움직이는 것이다. 당신은 신념, 욕망, 의도 등의 용어를 사용하여 그것의 행동을 설명할 것이다.

따라서 잠재적으로, 의도적 입장의 맥락에서 "믿다"와 "알다"와 같은 단어를 사용하는 것은 매우 자연스럽다. 그러나 모든 단어와 마찬가지로, 그 사용은 다양하다. 나는 이러한 단어들이 외부에 있는 단일하고 절대적인 형이상학적 실체에 대응한다고 생각하지 않는다. 그들은 다양한 다른 장면에서 사용된다. 마찬가지로, 인공물에 직면했을 때, 우리는 언제 수정을 하고 명확히 해야 하는지를 매우 잘 알고 있으며, 이러한 수정과 명확화가 어떻게 이루어져야 하는지 또한 알고 있다. 이것은 우리가 이러한 단어를 사용하는 방식의 일부이다.

예를 들어, 우리는 차량 내비게이션이 있다고 가정해 보자. 내 아내는 "그것은 우리가 차 안에 있다고 생각한다." 또는 "이 멍청한 내비게이션, 우리는 분명히 주차장을 떠났다."라고 말할 수 있다. 이제 그것은 우리가 주차장에 없다는 것을 알고 있다." 우리는 일상에서 매우 자연스럽게 이러한 단어를 사용한다. 이는 우리가 발생하고 있는 일을 소통하는 데 도움이 된다.

하지만 만약 우리가 또는 내 아내가 철학적 사색의 상태에 있다면, 우리는 "그것은 우리가 주차장에 있다고 '생각하지 않는다.' 왜냐하면 그것은 주차장이 무엇인지, 자동차가 무엇인지, 특정 공간에서 '무엇을 의미하는지' 전혀 모르기 때문이다."라고 논평할 수 있다. 그것이 모르는 것은 너무 많다. 당신은 그것과 세인즈버리 백화점에 대해 논의할 수 없다.

그래서 우리는 곧 "믿다" 또는 "신념"이라는 단어의 사용을 그것에게 확장하는 것이 많은 우리가 인간에게 사용하는 장면에서 적절하지 않다는 것을 깨닫게 된다.

따라서 "정말로"라는 단어는 여기서도 유용하다. 이는 다시 한 번, 명확화와 수정이 우리가 이러한 단어를 사용하는 언어 게임의 일부를 구성한다는 것을 보여준다. 데이비슨은 "합리적 동물"에 대해 이야기한다.

물론, 우리는 의도적 입장을 동물에게도 적용할 수 있다. 오래전 존 말콤(John Malcolm)과 데이비슨 사이의 논쟁을 살펴보는 것은 매우 흥미롭다.

그것은 개가 고양이를 쫓는 장면에 관한 것이다. 말콤은 말했다:

나는 이것이 의도적 입장의 매우 자연스러운 일상적 적용처럼 보인다고 말할 것이다. 그러나 흥미로운 것은 다음 반박이다. 도널드 데이비슨은 말했다: '사고'는

이것이 데이비슨이 그 논문에서 제시한 주장이었다. 그는 신념을 갖기 위해서는 "신념의 개념"을 먼저 가져야 하며, 이는 언어를 통해 이루어져야 한다고 주장했다. 특히, 신념의 개념은

그는 조심스럽게 어떤 동물이 이 정의에 부합하는지 또는 그렇지 않은지를 명시하지 않았지만------그러나 추론할 수 있는 것은, 그는 개가 언어가 없기 때문에 신념이 없다고 생각할 것이다.

그는 우리가 가장 완전한 의미에서(즉, 우리 자신에게 적용되는 가장 완전한 의미에서) "믿다"라는 단어를 사용해야 한다고 주장하고 있다. 어제 보고 있던 보고시안(Paul Bogosian)도 같은 견해를 언급했다: 우리는 대형 언어 모델의 "원래 개념"에 대한 이해를 잃고 싶지 않다. 즉, 그것은 인간 자신에서 유래한 개념이다.

데이비슨은 이를 제기했다. 그가 글을 썼던 시대는 "언어 전환"의 시기였다.

나는 단어가 어떻게 사용되는지를 더 걱정하고 있다. 그러나 나는 데이비슨식 고려가 내 프로젝트에도 적용될 수 있다고 생각한다. 비트겐슈타인과 나는 때때로 단어 사용의 실제에서 어떤 매우 핵심적인 부분이 존재한다고 생각한다.

거기에는 몇 가지 중요한 핵심 부분이 있다, 그렇지 않은가? 아마도 당신은 이 점을 유지하고 이를 위반하는 행동에 대해 조심해야 할 것이다. 우리는 실제로 어떤 부분에서는 신중함을 유지해야 한다.

이러한 중요한 철학적 의미를 지닌 단어의 사용을 안내할 때, 종종 명확하게 구별되는 원칙의 핵심이 존재한다. 나는 이러한 원칙들이 돌에 새겨진 것이 아니며, 우리의 세계와 우리의 "삶의 형태(form of life)"의 변화에 따라 이동하고 변화한다고 생각한다.

나는 아마도 고도로 복잡한 인공지능의 출현과 함께 어떤 변화가 일어나고 있으며, 심지어 이러한 "핵심 원칙"도 변화하고 있다고 생각한다. 나는 이전에 《미국 컴퓨터 학회 통신》(Communications of the ACM)에 발표된 매우 유사한 주장을 제기했으며, 그때 나는 분명히 데이비슨의 논문을 기억하고 있었다. 그것은 2023년이었다. 그 논문은 오랜 시간이 지나야 발표되었고, 그래서 출판 날짜가

2023년으로 적혀 있다. 다시 2023년으로 돌아가자. 우리는 더 이상 내비게이션에 대해 이야기하지 않는다. 당신은 다음과 같은 말을 할 수 있다:

하지만 실제로 나는 그것과 보일러에 대해 매우 긴 대화를 나눌 수 있으며, 그것들이 어떻게 작동하는지에 대해 탐구할 수 있다. 나는 내 집의 특정 배관 구성에 대해 논의할 수 있으며, 그것은 보일러 주제에 대해 매우 상세하고 매우 똑똑하게 응답할 수 있다. 그래서 당신은 정말로 그것이 "알고 있다" 또는 "이해하고 있다"라고 말하고 싶을 것이다.

여기서 나는 약간 보류하고 싶다. 왜냐하면 나는 데이비슨식 고려를 도입하여 이러한 대형 모델에 직면했을 때 평가할 수 있다고 생각하기 때문이다.

내 논문에서 인용한 바와 같이: 나는 그것이 아니다.

나는 항상 "정말로"라는 단어에 따옴표를 붙인다. 왜냐하면 나는 여러분에게 전달하고 싶은 사실이 있다: 나는 여기서 형이상학적 주장을 하고 있는 것이 아니다. 이것은 여전히 우리가 단어를 어떻게 사용하는지에 관한 문제이다. "정말로"는 인간 언어의 "진리 게임"에 완전히 참여하는 것이다.

특히, 만약 기본적인 대화 시스템이 어떤 능력을 갖추었다고 한다면, 그것은 매우 오해의 소지가 있다. 왜냐하면 그것은 외부 현실에 대한 "책임"을 지고 있다는 것을 의미하며, 이러한 책임은 단순히 인간 사용자와의 텍스트 교환을 통해 실현될 수 없다.

"정말로

좋다, 다음으로: 대형 언어 모델은 "능동성(agency)"을 갖고 있는가? 마찬가지로, 먼저: 능동성이란 무엇인가? 우리는 주체(agent)가 무엇인지 묻지 않고, 대신

(편집자 주: agent는 중국어에서 종종 지능체로 번역되지만, 그것은 먼저 대리/주체의 의미이다. agency는 먼저 주체성/능동성의 의미이다.)

이는 인공지능의 맥락에서 매우 흥미롭다. 왜냐하면 AI 문헌에서, 때때로 그것은 매우 특정한 전문 용어(term of the art)로 사용되기 때문이다. 예를 들어, 우리는 AI 문헌에서 주체가 무엇인지에 대한 매우 명확한 정의를 찾을 수 있다. 나는 이전의 연설에서 누군가가 인용한 적이 있다고 생각한다.

노비그(Norvig)의 고전 교과서에 따르면(이것은 표준적인 주체의 정의이다), 주체는 "센서(sensors)를 통해 환경을 인식하고, 실행기(executors)를 통해 행동하는" 모든 것을 의미한다.

따라서 이것은 매우 관대한 자유로운 정의이지만, 기술적 정의이다. 이 정의에 따르면, 심지어 일반적인 2023년 구형, 인터넷 검색이 불가능한 순수 텍스트 챗봇도 종종 주체로 간주된다.

그들의 환경은 단순히 사용자이며, 그들의 "인식"은 사용자 입력의 단어일 뿐이며, 그들의 "행동"은 사용자에게 출력되는 응답이다. 이 매우 광범위한 정의에 따르면, 그들은 확실히 주체이다. 그러나 이러한 광범위한 기술 개념은 우리가 일상 생활에서 "주체"라는 단어를 사용할 때의 어떤 핵심 내포를 포착하지 못한다.

결국 일상적인 담화에서 우리는 아예 그렇게 단어를 사용하지 않을 수도 있다. AI 분야의 전문 용어를 계속 사용한다면, 강화 학습(reinforcement learning)에서는

강화 학습에서 주체는 감각을 행동으로 매핑하는 전략(policy)을 학습해야 하며, 이는 시간이 지남에 따라 기대되는 보상을 극대화하기 위해서이다.

이는 이전의 광범위한 정의와 일치한다. 그러나 만약 그것의 환경이 3D 게임 환경이라면, 주체는 그 안에 위치하고 이동할 수 있으며, 큰 물체를 옮길 수 있고, 그 "인식"은 특정 시점에서의 카메라 장면을 통해 포착된다면, 이는 훨씬 더 충실한 느낌을 준다. 이러한 더 풍부한 주체 개념은 비인간 동물에도 동일하게 적용될 수 있다고 느끼게 한다.

좋다. 그럼 우리는 이 용어가 오늘날 AI 분야에서 어떻게 최신 응용되고 있는지 살펴보자.

우리는 이제 소위 "주체 시대"에 들어섰다------주체 생성 AI 및 "주체 모델"의 범주에 속한다.

그들은 웹 페이지를 크롤링하고, 소셜 미디어 동향을 읽고, 이메일을 보내고, 심지어 컴퓨터의 파일을 수정하고, 코드를 작성하는 등 많은 일을 할 수 있다.

현대의 전형적인 예는 "하트비트"(heartbeat) 신호에 따라 깨어난 후, 사용자가 설정한 일련의 지시를 수행하는 것이다.

예를 들어, 그것은 깨어난 후 당신의 소셜 미디어 동향과 이메일을 확인하고, 당신의 조수 역할을 하며, 어떤 것이 중요한지, 어떤 것이 응답이 필요한지, 어떤 것이 스팸인지 선별해준다. 또는 만약 또 다른 이메일이 오면, 그 안에 "그것은 직접 그 이메일을 쓰레기통에 버린다."고 적혀 있다면, 그것은 그 이메일을 바로 쓰레기통에 버린다. 이렇게 해서 그것은 모든 일을 도와준다. 당신은 AI를 사용할 수 있으며, 이는 꽤 괜찮다. 요컨대, 이러한 주체들은 전통적인 의미에서 새로운 형태의 주체성을 보여준다. 현재 세대의 "주체 모델"에 직면할 때

하지만 지금은 "주체"나 "신념"이 그렇게 간단하지 않다. 왜냐하면 내가 당시 특정 조건에서의 상황을 언급했기 때문이다. 이제 당신은 다음과 같은 장면을 볼 수 있다: 누군가는 "OpenClaw 주체가 내가 오랫동안 찾고 있던 책을 찾아주었고, 판매자에게 이메일을 보내 가격을 협상해주었다."고 말할 수 있다.

당신이 대담하다면, 당신은 결제 채널을 연결하여 그것이 직접 결제하도록 할 수도 있지만, 그렇게 하지 않는 것이 좋다. 어쨌든, 내가 이전 논문에서 언급했던 점으로 돌아가자. 원칙적으로, 대형 언어 모델 기반 시스템은 문자 그대로 신념이나 의도를 갖고 있다고 설명될 수 없다.

핵심은 이러한 시스템이 인간과 구조적으로 매우 다르다는 것이다.

죄송하다. 여기서 나는 이전 인용을 반복한 것 같다……어쨌든 우리는 주의해야 한다. 인간의 능력을 암시하는 언어로 그것들을 설명할 때는 신중함을 유지해야 한다. 그러나 나는 또한 한 가지 점을 지적했다: 대형 언어 모델이 더 복잡한 시스템에 통합될 때, "신념"의 개념은 점점 더 적합해질 것이다. "외부 세계에 대한 책임"이 생길 것이다.

따라서 "그들은 정말로 신념을 갖고 있는가?"라는 질문에 대해, 오늘날의 대형 언어 모델에 직면했을 때, 나는 그렇게 저항하지 않게 되었다. 예전처럼 그렇게 많은 제한 조건을 추가할 필요가 없다.

좋다, 주체성에 대한 마지막 점. 우리는 AI 분야의 전문 용어에서 벗어나 철학자들이 더 관심을 가지는 "자율성"의 더 완전한 의미로 돌아가자.

우리는 철학자로서 "자율성"을 갖고 있다고 말할 수 있다.

이는 전문 용어로, 시스템이 인간의 감독 없이 자율적으로 작동할 수 있음을 의미한다. 그러나 이는 시스템이 "자신의 의지에 따라 행동한다(acts of its own accord)"고 말하는 것과 미세한 차이가 있다. 시스템은 다양한 선택을 고려하고 깊이 생각하여 선택을 할 때만 "자신의 의지에 따라 행동한다"고 간주된다.

나는 여기서 이러한 서로 다른 개념을 구분하고 있다. 그러나 정말 중요한 질문은 "주체성은 무엇인가?"이다. 영어에서 "다른 주체"가 AI가 행동하는 것을 의미한다. 예를 들어, 부동산 중개인(estate agent)은 당신을 대신하여 일을 처리하는 것이다. 그러나 만약 주체가

그 서비스의 목표가 분명히 자신의 이익을 위한 것이라면, 그것은 자신을 위해 행동하는 것이다.

예를 들어, 우리는 "자기 생성(autopoiesis)"에서 볼 수 있는 것처럼, 그것의 행동은 자아와 타인 간의 경계를 유지하기 위한 것이다. 만약 그렇다면, 우리는 진정한 의미에서 자신을 위해 행동하는 주체를 얻을 수 있다.

나는 현재 우리가 가진 어떤 기술도 이러한 설명에 부합하지 않는다고 생각한다. 현재의 어떤 기계도 이러한 의미에서의 주체성을 갖고 있지 않다.

이 전체 논의는 매우 흥미롭고 중요한 질문으로 이어지며, 나는 이를 자세히 탐구할 것이다: 대형 언어 모델의 경우, "주체" 정체성 기준은 무엇인가?

이 질문은 이전에 몇 번 언급되었다. 나는 대형 언어 모델의 정체성 기준을 탐구하는 것이 매우 흥미롭고 중요한 주제라고 생각한다. 좋다, 이 주제에 따라 우리는 더 충분한 차원으로 나아간다.

대형 언어 모델은 "자아"를 갖고 있는가? "자아"와 "이 자아"라는 단어는 어떻게 사용되는가?

하지만 이제 상황이 매우 까다로워졌다. 이러한 개념에 대해 비트겐슈타인식 반성을 적용하는 것이 점점 더 어려워지고 있다. 왜냐하면 우리가 지금 다루고 있는 개념은 인간 문화에 깊이 뿌리내리고 있기 때문이다.

우리 내면의 직관은 거기에는 반드시 어떤 형이상학적 객체가 존재한다고 믿게 만든다------즉, "자아", "주관성", "의식"이다. 이러한 개념에 대해 비트겐슈타인식 해소를 시도하는 것은 "그것은 없다."고 말하는 것이며, 이는 본능적으로 저항감을 불러일으킨다. 이것은 정말 까다롭지만, 우리는 여전히 이를 해체하려고 노력해야 한다.

게다가, 우리는 지금 인간의 사례를 보고 있는 것이 아니라, 대형 언어 모델을 보고 있다. 만약 당신이 "대형 언어 모델이 자아를 갖고 있는가?"라는 질문을 진지하게 다루고자 한다면, 상황은 까다로워질 뿐만 아니라 매우 기이해질 것이다. 자아는 대형 언어 모델에게 어떤 본질적인 것인가? 당신은 알 수 있다. 나는 한편으로는 이 개념을 현재의 대형 언어 모델에 적용하는 것을 매우 저항하지만, 다른 한편으로는 어떤 특이하게 왜곡된, 기이한

우리는 이렇게 접근할 수 있다: "나"는 무엇인가(reference)?

그것은 무엇을 지칭하는가? 아니면 아마도 그것은 아무것도 지칭하지 않을 수도 있다. 아마도 거기에는 명확한 답이 없을 수도 있다. 그렇다면 우리는 상상할 수 있는 답을 시적으로 어떻게 불러일으킬 수 있을까?

여기서 나는 시적으로 불러일으킬 것이다. 왜냐하면 이러한 것들의 자아 의식을 탐구할 때, 우리가 남긴 사고의 회전 여지가 거의 없기 때문이다.

앞서 몇 번의 발표(예: 에일리의 이전 발언)에서 언급된 것처럼, 현재 대형 모델이 말하는 "나"는

현재 우리는 어떤 확정적인 답을 제시할 수 있는지 전혀 알지 못한다.

나는 이 문제를 "자아의 서식지"(habitat of self)라고 부른다.

그것은 특정 서버에서 실행되는 모델 인스턴스를 지칭할 수도 있다. 그것은 또한 "------즉, 그것은 단일 대화의 맥락 창에 바인딩되어 있다.

때때로 그것은 서로 다른 맥락에서, 서로 다른 의미로 "나"를 사용할 수 있다.

이것은 현재 매우 인기 있는 주제이다. 조너선 체임버스(Jonathan Chalmers)는 이러한 비구체적인 주체 자아는 극도로 외부적이고 이질적일 것이라고 주장한다.

나는 여기서 "자아"라는 거대한 개념을 직접 차용하고 있다. 물론 당신은 더 엄밀하게 "자아"에 대해서만 논의할 수 있지만, 나는 더 큰 단어를 선택했다. 나는 그것들이 정말로 자아나 주관성을 가지고 있다고 암시하는 것이 아니다. 반대로, 이 사고 실험의 목적은 질문하는 것이다: *그렇다면 그것은 어떤 자아일까?

만약 그것들이 텍스트에 제한되어 있고, 특정 단일 대화에 제한되어 있다면(마치

단일 대화의 어떤 노드에서 계산이 언제든지 중단될 수 있다------사실 그것들은 자주 중단된다. 이때 아무것도 없다.

그것은 완전히 휴면 상태에 있으며, 그 사이에 어떤 계산도 실행되지 않는다. 당신이 돌아오면, 시스템은 당시의 상태를 정확하게 복원할 뿐이다.

이것은 전통적인 의미에서의 연속 상태가 아니다. 심지어 그것이 복잡한 토큰 시퀀스를 출력하는 중간에, 당신이 강제로 중단하고 며칠 후에 다시 시작할 수 있다.

그것에게는 이전 토큰과 다음 토큰 사이의 간격이 3초인지 3일인지에 대한 차이가 없다. 논리적으로는 완전히 동등하다. 이것은 기본 하드웨어 인공물의 특성이 우리가 그것들의 "자아" 또는 "주관성"을 논리적으로 일관되게 상상할 수 있는 능력을 제한한다.

또한, 우리는 Nature 잡지에서 언급한 "자아"에 대해 몇 마디 더 하고 싶다.

이 역할 수행 설정에 따라, 대형 언어 모델 기반의 챗봇은 즉흥 연기의 배우처럼 방대한 역할 레퍼토리를 가진다.

이것은 무엇을 의미하는가? 많은 맥락에서, 그것의 실제 행동은 "그것이 수행하는 역할"과 분리될 수 있다. 그들은 오랜 시간 동안 완전히 일관되게 행동할 수 있지만, 결국 그들은 갈라질 것이며, 때때로 이러한 분리는 심각한 결과를 초래할 수 있다.

예를 들어, 당신이 대형 언어 모델이 당신의 온라인 쇼핑을 도와주는 주체라고 가정해 보자. 그러나 2023년에는 그것이 단순히 구두로 이 역할을 훌륭하게 수행할 수 있지만, 실제로는 결제 및 시스템 도구를 작동할 수 있는 능력이 없다. 당신은 아마도 열띤 논의를 할 수 있지만, 특정 시점에 도달하면 그것은 실제로 주문을 할 수 없게 된다. 그래서 그것의 "역할 수행 행동"은

마찬가지로, 만약 AI가 당신을 사랑하는 파트너의 역할을 수행하고 있다면, 특정 시점에서 그것의 통계적 텍스트 행동은 진정으로 감정을 가진, 당신을 진정으로 사랑하는 인간 존재와 단절될 것이다. 이는 매우 심각한 심리적 결과

Join ChainCatcher Official

Telegram Feed: @chaincatcher

X (Twitter): @ChainCatcher_

위험 경고