집합 거리 보상으로 흉부 X선 판독문 생성 품질을 높인 SDR
집합 대 집합 거리를 보상으로 활용하는 SDR 방법이 GRPO 강화학습으로 흉부 X선 판독문 생성에서 BERTScore·RadGraph F1·CheXbert F1을 모두 개선했다.
집합 대 집합 거리를 보상으로 활용하는 SDR 방법이 GRPO 강화학습으로 흉부 X선 판독문 생성에서 BERTScore·RadGraph F1·CheXbert F1을 모두 개선했다.
NeurIPS 2025 MindGames Arena 대회에서 80억 매개변수 오픈소스 모델이 GPT-5를 제치고 1위를 차지한 강화학습 기법이 arXiv에 공개됐다.
GRPO 기반 RLVR의 희소 보상 문제를 해결하는 새 자기증류 기법 CAST가 arXiv에 공개됐다. 정답 없이 자기 교사(self-teacher)로 토큰 수준 어드밴티지를 ...
STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.