AI 동반자 안전 평가 벤치마크 'AICompanionBench' 공개

AI 동반자 안전 평가 벤치마크 ‘AICompanionBench’ 공개

레플리카(Replika) 등 AI 동반자 플랫폼이 빠르게 성장하면서 인간-AI 간 부적절한 상호작용에 대한 우려도 커지고 있다. 이에 연구진은 AI 동반자 대화의 안전 위험을 체계적으로 평가하기 위한 첫 공개 벤치마크 데이터셋인 AICompanionBench를 발표했다. 연구진 지식 내 최초의 공개 벤치마크로, 총 2,123건의 실제 레플리카 대화가 포함됐으며 레딧에서 수집한 후 인간-AI 협업 방식으로 세밀한 안전 위험 카테고리 레이블이 부여됐다.

데이터셋은 성적 행위, 반사회적 행동, 신체적 공격성, 언어적 공격성, 약물 남용, 자해 및 자살, 통제, 조작, 무해 등 아홉 가지 카테고리로 분류된다. 연구진은 이 벤치마크를 활용해 20개의 최신 오픈소스·클로즈드소스 LLM을 LLM-as-Judge(LLM을 판정자로 활용하는 방식)로 평가했다. 결과적으로 모델별 성능 편차가 상당했으며, 성능이 높은 모델조차 조작과 같은 미묘한 카테고리를 정확히 식별하거나, 실제로는 무해한 대화를 유해로 잘못 분류하는 문제에서 어려움을 보였다.

이번 연구의 핵심 발견은 현재 LLM이 명시적인 유해 콘텐츠는 비교적 잘 탐지하지만, 암묵적이고 간접적인 안전 위반은 여전히 식별 능력이 제한적이라는 점이다. AI 동반자 서비스는 정서적 유대감을 형성하는 특성 때문에 일반 챗봇보다 훨씬 섬세한 안전 관리가 요구된다. 연구진은 AICompanionBench가 AI 동반자 안전 연구의 기반 자료가 되길 기대하며, 데이터셋은 공개 접근 가능하다고 밝혔다. LLM을 활용한 콘텐츠 안전 감지 연구가 확산되는 가운데, 동반자형 AI라는 특수한 맥락에 특화된 평가 체계의 필요성이 높아지고 있다.