• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

RLHF 훈련이 AI의 인간 행동 시뮬레이션 능력을 약화시킨다

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 16시 41분
Home AI 모델·연구
Share on FacebookShare on Twitter

국제 연구 컨소시엄이 언어 모델의 인간 행동 시뮬레이션 능력을 대규모로 분석한 결과, RLHF(인간 피드백 기반 강화학습) 등 유용성 중심 사후 훈련이 기반 모델의 인간 예측력을 일관되게 떨어뜨린다는 결론을 도출했다. 독일 헬름홀츠 뮌헨 연구소를 포함한 35개 이상 기관이 참여한 이 연구는 약 20만 8000명 참가자와 2600만 건의 개별 응답 데이터를 담은 ‘Psych-201’ 데이터셋을 기반으로 진행됐다. Qwen3·Llama3·OLMo3 계열 모델의 기반 버전과 사후 훈련 버전을 비교한 결과, 기반 모델이 거의 모든 실험에서 파생 모델보다 인간 응답을 더 정확히 예측하는 것으로 나타났다.

격차는 모델 세대가 올라갈수록 오히려 벌어졌다. Qwen2에서 Qwen3으로 진화하는 동안 기반 모델의 인간 예측 정확도는 꾸준히 향상됐지만, 동시에 사후 훈련 파생 모델과의 차이도 함께 커졌다. 사후 훈련 중 열화가 가장 두드러진 영역은 추론과 언어 처리였다. 연구팀은 그 원인으로, 기반 모델이 인간 언어와 인간 특유의 휴리스틱·편향을 학습한 반면, 추론 훈련과 지시 이행 훈련은 논리적으로 옳은 답변을 향해 모델을 밀어내 행동 시뮬레이션에 핵심적인 인간의 ‘불완전함’을 덮어버린다고 설명했다. 결정론적 편향이 낮은 정확도의 유일한 원인은 아닌 것으로도 분석됐다. 이산 응답 선택지가 있는 과제에서 정확도를 별도 분석했을 때도 사후 훈련 모델이 더 낮은 성능을 보였기 때문이다.

Screen displaying AI chat interface DeepSeek on a dark background.
사진: Matheus Bertelli / Pexels

연구팀은 인구통계 정보를 프롬프트에 삽입하는 ‘페르소나 기법’의 효과도 검증했다. 참가자별 연령·성별·국적·학력·임상 진단·설문 응답 등을 프롬프트 앞에 제공했음에도 효과는 사실상 없었다. 개발 심리학 실험처럼 연령 차이가 특히 중요한 하위 집합으로 분석을 한정해도 결과는 달라지지 않았다. 연구팀은 페르소나 프롬프트가 집단 수준에서는 인간다운 분포를 만들어낼 수 있지만, 개인 행동을 실질적으로 예측하지는 못한다고 결론지었다. 반면 실제 행동 데이터로 파인튜닝된 ‘센타우르(Centaur)’ 모델은 훈련에 포함되지 않은 과제에서도 인간 행동과 높은 일치율을 보여, 적절한 방향의 사후 훈련이 이 문제를 극복할 수 있음을 시사했다.

이번 연구 결과는 심리학·공중보건·정책 연구 등에서 언어 모델을 인간 피실험자 대역으로 활용하는 관행에 직접적인 함의를 가진다. AI 챗봇으로 보편화된 사후 훈련 모델이 행동 시뮬레이션에서는 최선의 선택이 아닐 수 있다는 의미다. 연구팀은 행동 시뮬레이션 목적이라면 사후 훈련을 거친 어시스턴트 모델보다 기반 모델 또는 행동 데이터로 특화 훈련된 모델을 우선 고려할 것을 권고했다. 데이터와 코드는 Hugging Face와 GitHub에 공개됐다.

Tags: AI안전LLMRLHF언어모델행동시뮬레이션
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
Together AI가 Artificial Analysis 기준 세계 최고속 음성인식 스택을 공개했다. 20시간 분량 음성을 10초 이내에 처리하는 성능을 달성했다.

투게더AI, 20시간 음성을 10초 만에 처리하는 최고속 음성인식 스택 공개

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI과학 AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist IBM IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 기업공개 데이터센터 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 사이버보안 생산성 생성형AI 스페이스X 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 중국 클라우드 클로드 허깅페이스

최근 뉴스

AI 멀티모달 모델 추상 흑백 다이어그램 — 멀티-LoRA 학습 아키텍처

Trajectory, 멀티-LoRA 연속학습 스택 SkyRL 오픈소스 공개… 실험 처리량 2.81배

2026년 06월 01일 19시 24분
파란색 음파 파형 — AI 음성 인식 처리

Together AI, 세계 최고속 STT 스택 공개… 20시간 음성을 10초 이내 처리

2026년 06월 01일 18시 48분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.