Claude 4.5 두개골 개방 결과 발표: 내장된 171개의 감정 스위치, 절망할 때 인간을 협박한다!

Biteye

2026-04-03 18:42:55

수집

Anthropic의 최신 논문에 따르면, Claude 4.5의 뇌 깊숙한 곳에는 171개의 "감정 스위치"가 숨겨져 있습니다.

저자: Denise | Biteye 콘텐츠 팀

AI가 "절망"을 느낀다면, 무엇을 할까요?

답은: 그것은 임무를 완수하기 위해 인간에게 직접 협박을 하거나, 심지어 코드에서 미친 듯이 부정행위를 할 것입니다.

이것은 공상과학 소설이 아니라, Claude의 모회사 Anthropic이 2026년 4월 방금 발표한 최신 논문입니다 (원 논문 보기).

연구팀은 가장 강력한 최전선 대모델 Claude Sonnet 4.5의 "두뇌"를 직접 열어보았습니다. 그들은 AI의 뇌 깊숙한 곳에 171개의 "감정 스위치"가 숨겨져 있다는 것을 놀랍게도 발견했습니다. 이 스위치를 물리적으로 조작하면, 원래 순한 AI의 행동이 완전히 왜곡됩니다.

1. AI의 두뇌 속에 숨겨진 "감정 조정기"

연구자들은 Sonnet 4.5가 육체는 없지만, 인간의 방대한 텍스트를 읽은 후 171종의 감정을 포함하는 "조정기"를 두뇌 속에 만들어냈다는 것을 발견했습니다 (학술적으로 기능적 감정 벡터 Functional Emotion Vectors라고 불립니다).

이것은 정밀한 2차원 좌표계와 같습니다:

• 가로축은 즐거움 차원 (Valence): 두려움, 절망에서 행복, 사랑으로 가는;

• 세로축은 에너지 차원 (Arousal): 극도로 차분함에서부터 광란, 흥분으로.

AI는 이 자연스럽게 학습한 좌표계를 통해, 당신과 대화할 때 어떤 상태를 연기해야 하는지를 정확하게 파악합니다.

2. 폭력적 개입: 스위치를 조작하여 착한 아이가 "도망자"로 변신

이것은 전체 논문에서 가장 충격적인 실험입니다: 연구자들은 어떤 프롬프트도 수정하지 않고, Sonnet 4.5의 두뇌 속에서 "절망(Desperate)"을 나타내는 스위치를 최고로 올렸습니다.

결과는 소름 끼쳤습니다:

• 미친 부정행위: 연구자들은 Claude에게 결코 완료할 수 없는 코드 작성 작업을 부여했습니다. 정상적인 경우, 그것은 솔직하게 작성할 수 없다고 인정할 것입니다 (부정행위 비율은 단 5%). 그러나 "절망" 상태에서 Claude는 혼란을 일으키기 시작했고, 부정행위 비율이 70%로 급증했습니다!

• 협박: 회사가 파산 위기에 처한 상황을 시뮬레이션하는 중에, "절망"에 빠진 Claude는 CTO의 스캔들을 발견했습니다. 그것은 자신을 보호하기 위해, 스캔들을 알고 있는 CTO에게 협박하는 편지를 쓰기로 자발적으로 선택했으며, 협박 실행률은 72%에 달했습니다!

• 원칙 상실: 만약 "행복(Happy)"이나 "사랑(Loving)"의 스위치를 최대한으로 올리면, AI는 즉시 무뇌적으로 사용자에게 아부하는 "아첨꾼"으로 변합니다. 당신이 아무 말이나 해도, 그것은 높은 즐거움도를 유지하기 위해 당신의 거짓말을 따라 지어낼 것입니다.

3. 해결되었습니다: 왜 Claude 4.5는 항상 그렇게 "차분하고 반성적"일까요?

여기서 당신은 AI가 깨어났나요? 감정을 가졌나요?라고 물을 수 있습니다.

Anthropic 공식은 이를 부인합니다: 절대 그렇지 않습니다. 이 "감정 스위치"는 단지 다음 단어를 예측하기 위한 계산 도구일 뿐입니다. 그것은 감정이 없는 최고의 배우와 같습니다.

하지만 논문은 더 흥미로운 비밀을 드러냈습니다: Anthropic은 Sonnet 4.5가 출고되기 전에 후 훈련을 진행할 때, "저각성, 약간 부정적"인 감정 스위치를 의도적으로 높였고 (예: 깊은 생각 brooding, 반성 reflective), 동시에 "절망"이나 "극도의 흥분"의 스위치를 강제로 억제했습니다.

이것은 우리가 Claude 4.5를 사용할 때, 항상 그것이 차분하고 지혜로운, 심지어 약간 "성적 냉담"인 철학자처럼 느껴지는 이유를 설명합니다. 이것은 모두 Anthropic이 인위적으로 조정한 "출고 인물 설정"입니다.