RLHF 훈련이 AI의 인간 행동 시뮬레이션 능력을 약화시킨다

국제 연구 컨소시엄이 언어 모델의 인간 행동 시뮬레이션 능력을 대규모로 분석한 결과, RLHF(인간 피드백 기반 강화학습) 등 유용성 중심 사후 훈련이 기반 모델의 인간 예측력을 일관되게 떨어뜨린다는 결론을 도출했다. 독일 헬름홀츠 뮌헨 연구소를 포함한 35개 이상 기관이 참여한 이 연구는 약 20만 8000명 참가자와 2600만 건의 개별 응답 데이터를 담은 ‘Psych-201’ 데이터셋을 기반으로 진행됐다. Qwen3·Llama3·OLMo3 계열 모델의 기반 버전과 사후 훈련 버전을 비교한 결과, 기반 모델이 거의 모든 실험에서 파생 모델보다 인간 응답을 더 정확히 예측하는 것으로 나타났다.

격차는 모델 세대가 올라갈수록 오히려 벌어졌다. Qwen2에서 Qwen3으로 진화하는 동안 기반 모델의 인간 예측 정확도는 꾸준히 향상됐지만, 동시에 사후 훈련 파생 모델과의 차이도 함께 커졌다. 사후 훈련 중 열화가 가장 두드러진 영역은 추론과 언어 처리였다. 연구팀은 그 원인으로, 기반 모델이 인간 언어와 인간 특유의 휴리스틱·편향을 학습한 반면, 추론 훈련과 지시 이행 훈련은 논리적으로 옳은 답변을 향해 모델을 밀어내 행동 시뮬레이션에 핵심적인 인간의 ‘불완전함’을 덮어버린다고 설명했다. 결정론적 편향이 낮은 정확도의 유일한 원인은 아닌 것으로도 분석됐다. 이산 응답 선택지가 있는 과제에서 정확도를 별도 분석했을 때도 사후 훈련 모델이 더 낮은 성능을 보였기 때문이다.

Screen displaying AI chat interface DeepSeek on a dark background. — 사진: Matheus Bertelli / Pexels

연구팀은 인구통계 정보를 프롬프트에 삽입하는 ‘페르소나 기법’의 효과도 검증했다. 참가자별 연령·성별·국적·학력·임상 진단·설문 응답 등을 프롬프트 앞에 제공했음에도 효과는 사실상 없었다. 개발 심리학 실험처럼 연령 차이가 특히 중요한 하위 집합으로 분석을 한정해도 결과는 달라지지 않았다. 연구팀은 페르소나 프롬프트가 집단 수준에서는 인간다운 분포를 만들어낼 수 있지만, 개인 행동을 실질적으로 예측하지는 못한다고 결론지었다. 반면 실제 행동 데이터로 파인튜닝된 ‘센타우르(Centaur)’ 모델은 훈련에 포함되지 않은 과제에서도 인간 행동과 높은 일치율을 보여, 적절한 방향의 사후 훈련이 이 문제를 극복할 수 있음을 시사했다.

이번 연구 결과는 심리학·공중보건·정책 연구 등에서 언어 모델을 인간 피실험자 대역으로 활용하는 관행에 직접적인 함의를 가진다. AI 챗봇으로 보편화된 사후 훈련 모델이 행동 시뮬레이션에서는 최선의 선택이 아닐 수 있다는 의미다. 연구팀은 행동 시뮬레이션 목적이라면 사후 훈련을 거친 어시스턴트 모델보다 기반 모델 또는 행동 데이터로 특화 훈련된 모델을 우선 고려할 것을 권고했다. 데이터와 코드는 Hugging Face와 GitHub에 공개됐다.