AI 챗봇 유용성 훈련이 인간 행동 시뮬레이션 능력을 약화시킨다

AI 챗봇을 유용하게 만드는 훈련이 오히려 인간 행동을 예측하는 능력을 약화시킨다는 대규모 연구 결과가 나왔다. 헬름홀츠 뮌헨(Helmholtz Munich)을 포함한 35개 이상 기관으로 구성된 국제 연구 컨소시엄이 Psych-201 데이터셋을 활용해 약 20만8000명의 참가자로부터 수집한 2600만 건의 응답을 분석한 결과, 지시 튜닝·강화학습 기반 추론 훈련·비전 확장 등 후처리(post-training) 과정을 거친 모델이 기초 모델(base model)보다 인간 행동을 더 부정확하게 예측하는 것으로 드러났다. 이번 연구는 2026년 5월 30일 공개됐으며 코드와 데이터는 Hugging Face 및 GitHub에서 확인할 수 있다.

연구팀은 Qwen3, Llama3, OLMo3 등 세 가지 모델 계열을 기초 버전과 후훈련(post-trained) 버전으로 나눠 비교했다. 수백 건의 행동 실험을 망라한 분석에서 모든 모델 계열에서 일관되게 기초 모델이 후훈련 모델보다 인간 행동을 정확하게 모사했다. 불일치 정도는 영역에 따라 달랐는데, 언어 처리·추론 과제에서는 0.12~0.18, 경제 게임 실험에서는 0.06으로 측정됐다. 또한 인구통계 프로필을 실험 전 프롬프트로 제공하는 ‘페르소나 기법’은 개별 행동 예측에 사실상 효과가 없는 것으로 나타났다. 반면, 행동 데이터를 대상으로 특화 파인튜닝된 모델(연구에서는 ‘센타우르(Centaur)’ 유형으로 언급)은 성능이 향상됐다는 점이 예외적으로 확인됐다.

스마트폰과 의학 연구 자료가 놓인 학술 연구 환경 — 사진: Tara Winstead / Pexels

이번 연구가 제기하는 문제의 핵심은 RLHF(인간 피드백 기반 강화학습) 등 정렬(alignment) 훈련이 모델을 사용자가 원하는 답변, 혹은 규범적으로 올바른 답변을 생성하는 방향으로 이동시키면서 인간의 실제 반응 분포에서 멀어지게 만든다는 것이다. 연구팀은 이를 사전학습 단계에서 습득한 능력이 특정 목표를 향한 추가 훈련으로 손상되는 알려진 현상의 한 변형으로 설명했다. 또한 Qwen2에서 Qwen2.5를 거쳐 Qwen3로 세대가 바뀌며 기초 모델의 인간 행동 예측력은 향상되지만, 파생된 어시스턴트 모델과의 성능 격차는 오히려 더 벌어지는 경향이 확인됐다. 이는 모델이 더 강력해질수록 인간 행동 시뮬레이터로서의 한계도 심화될 수 있음을 시사한다.

최근 학계 전반에서 ChatGPT·클로드(Claude) 등 상용 챗봇을 설문 응답자 대체재나 실험 참가자 시뮬레이터로 활용하는 시도가 늘고 있다. 이번 결과는 일반 목적으로 정렬 훈련된 모델이 그러한 용도에 구조적 한계를 가질 수 있음을 경고한다. 연구자들이 상용 챗봇 응답을 인간 표본으로 해석해 도출한 결론은 재검토가 필요할 수 있으며, 인간 행동 모사가 목적이라면 전용 행동 데이터로 특화 훈련된 모델을 별도로 구축하거나 활용하는 방향이 권고된다.