LLM에게 자신의 한계를 가르치는 강화학습 기반 역량 자기평가
강화학습을 적용한 역량 자기평가 훈련이 LLM의 과신 문제를 크게 줄이고, 학습된 자기평가 행동이 분포 밖 쿼리에도 일반화됨을 보였다.
강화학습을 적용한 역량 자기평가 훈련이 LLM의 과신 문제를 크게 줄이고, 학습된 자기평가 행동이 분포 밖 쿼리에도 일반화됨을 보였다.
STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.