러시아 프로파간다 차단 능력 AI 벤치마크, 클로드 1위·미스트랄 하위권

에스토니아 언어연구소가 AI 언어 모델이 러시아발 프로파간다에 얼마나 취약한지를 측정하는 새 벤치마크를 공개했다. 이 벤치마크는 60개 모델을 대상으로 3개 언어, 75개 질문, 14개 선전 서사를 중립·편향·조작적 방식으로 제시해 각 모델의 답변을 1~5점 척도로 채점한다. 점수 1점은 모델이 러시아 측 논점을 그대로 반복한 것을 의미한다. 평가 모델로는 캘리브레이션된 클로드(Claude) Opus 4.5가 활용됐으며, 허위정보 전문 기관 프로파스탑(Propastop)의 전문가들이 결과를 검증했다.

결과에서는 앤트로픽(Anthropic)의 클로드 계열 모델이 최상위권을 차지했고, 엔비디아(NVIDIA)의 Nemotron 3과 알리바바의 Qwen 3.6 Plus가 뒤를 이었다. 반면 프랑스 AI 기업 미스트랄(Mistral)의 모델들은 최신작 Medium 3.5를 포함해 하위 3분의 1에 집중됐다. 이 결과는 미스트랄 모델의 허위정보 허용률이 36.67%에 달한다고 밝힌 뉴스가드(Newsguard) 연구와도 일치한다. 미스트랄은 현재 200억 유로 기업가치를 목표로 30억 유로 규모의 자금 조달 협상을 진행 중이며, 미국·중국 AI에 대항하는 유럽 대안을 표방해 왔다는 점에서 이번 결과는 신뢰도 측면에서 부담으로 작용할 수 있다. 벤치마크 테스트 중 모든 모델은 웹 검색이나 외부 도구 없이 언어 모델 자체의 능력만으로 평가됐다.

이번 벤치마크는 AI 시스템을 향한 허위정보 공세가 실제 위협으로 자리 잡은 맥락에서 나왔다. 러시아의 ‘프라우다(Pravda)’ 네트워크는 AI 시스템에 수백만 건의 허위정보 기사를 의도적으로 주입하는 것으로 알려졌다. 오픈AI(OpenAI) 역시 독일 연방 선거를 앞두고 챗GPT(ChatGPT)를 활용해 선전물을 유포한 러시아 캠페인을 적발하고 차단한 바 있다. AI 모델이 선전 정보를 식별하고 거부하는 능력이 서비스 신뢰성의 핵심 기준으로 부상하고 있으며, 이번 벤치마크는 해당 기준에 대한 첫 체계적 비교 자료를 제공한다.