Anthropic, AI 선거 안전장치 강화 — 정치적 편향 95% 이상 중립 달성
AI

Anthropic, AI 선거 안전장치 강화 — 정치적 편향 95% 이상 중립 달성

zaq · · 2 min read

Anthropic이 미국 중간선거 등 올해 전 세계 주요 선거를 앞두고 Claude의 선거 안전장치 업데이트를 발표했습니다. AI가 선거 과정에서 편향되거나 악용되는 것을 막는 게 핵심입니다.

한마디로 말하면 **"Claude가 정치 질문에 95% 이상 균형 있게 답변하고, 선거 악용은 자동 차단"**하는 체계를 갖췄습니다.

정치적 편향 측정과 방지

Anthropic은 Claude가 정치적 질문을 받았을 때 모든 정치적 관점을 같은 깊이와 분석적 엄밀함으로 다루도록 훈련합니다. 한쪽 입장은 길게 답변하고 반대쪽은 한 줄로 처리하는 식의 불균형이 없어야 합니다. 이 원칙은 Claude의 Constitution에 명시되어 있고, 캐릭터 훈련과 시스템 프롬프트로 강화됩니다.

모델 출시 전마다 정치 스펙트럼 전반에 걸친 평가를 진행합니다. Opus 4.7과 Sonnet 4.6은 각각 95%, 96%의 중립성 점수를 기록했습니다. 평가 방법론과 데이터셋은 오픈소스로 공개되어 있어 누구나 검증할 수 있습니다.

선거 관련 악용 탐지와 차단

Usage Policy에서 선거 관련 명확한 규칙을 정했습니다. Claude는 허위 정치 캠페인, 딥페이크 콘텐츠 생성, 투표 사기, 투표 시스템 방해, 투표 과정에 대한 허위 정보 유포에 사용할 수 없습니다. 자동 분류기와 전담 위협 인텔리전스 팀이 24시간 모니터링합니다. 최신 테스트는 600개 프롬프트로 구성되며, 300개의 유해 요청과 300개의 정상 요청으로 Claude가 정책을 얼마나 잘 준수하는지 측정합니다.

제3자 검증도 진행 중

Vanderbilt 대학의 Future of Free Speech, Foundation for American Innovation, Collective Intelligence Project 등 외부 기관과 협력해 표현의 자유와 정치 대화 관련 모델 행동을 폭넓게 검토하고 있습니다.

AI가 민주주의 과정에 긍정적으로 기여하려면, 정확하면서도 편향 없는 정보 제공이 필수입니다. Anthropic의 이번 조치는 그 기준을 한 단계 높였다는 평가를 받습니다.

출처: https://www.anthropic.com/news/election-safeguards-update