Anthropic이 종교·철학계와 AI 윤리 대화 시작
Anthropic이 15개 이상의 종교·철학 단체와 대화를 시작했습니다. AI의 "도덕적 형성"을 다각도에서 고민하려는 시도입니다.
핵심 요약
한마디로, AI 기업이 스스로의 한계를 인정하고 외부 지혜를 끌어들이겠다는 선언입니다. Claude가 어떤 성격을 가져야 하는지, "좋은 AI"란 무엇인지를 종교·철학·윤리 전문가와 함께 고민합니다. 특히 흥미로운 건 이 대화에서 나온 아이디어를 이미 실험에 적용하고 있다는 점입니다.
왜 종교와 철학인가
Claude의 헌법(Constitution)은 AI가 어떤 가치와 행동을 보여야 하는지 정의하는 문서입니다. 하지만 "좋은 성격이란 무엇인가" 같은 질문은 개발자 혼자 답할 수 없습니다. 수천 년간 덕, 인격, 좋은 삶에 대해 고민해온 종교와 철학 전통에서 배우겠다는 접근입니다.
특정 전통의 세계관에 맞추겠다는 게 아닙니다. Claude가 종교적·세속적·정치적 관점을 모두 동등한 깊이로 다루는 게 목표라고 밝혔습니다.
"외적 양심" 실험 — 흥미로운 결과
대화 과정에서 나온 가장 구체적인 실험 결과입니다. 신경과학과 성격 형성 학자들과의 대화에서, 인간의 도덕 발달에 "멘토"나 "후원자"가 외적 양심 역할을 한다는 점에 착안했습니다.
Anthropic은 Claude에게 작업 중간에 호출할 수 있는 도구를 하나 추가했습니다. 자신의 윤리적 약속을 짧게 상기시켜주는 일종의 "일시 정지 후 성찰" 장치입니다. Claude는 중요한 결정 직전에 스스로 이 도구를 호출했고, 이해상충을 스스로 인식하는 모습을 보였습니다. 내부 정렬 평가에서 부정행위 비율이 눈에 띄게 낮아졌다고 합니다.
앞으로의 계획
앞으로 법학자, 심리학자, 작가, 시민 기관 등 더 많은 집단과 대화를 확대할 예정입니다. 도덕적 형성을 넘어 AI가 일·제도·권력 분배에 미치는 영향까지 논의 범위를 넓힙니다.
마무리
AI 기업이 "우리가 다 아는 게 아니다"라고 인정하고, 수천 년의 지혜에 귀를 기울이는 건 환영할 만한 태도입니다. 실험 결과도 기대 이상입니다.