LLM 피드백 증류로 Lean 정리 증명 자동화 성능 개선
LLM의 특권적 피드백을 토큰 단위로 자기 증류해 Lean4 정리 증명 추론 성능을 높이는 방법이 arXiv에 공개됐다. GRPO보다 경로 다양성과 pass@k ...
LLM의 특권적 피드백을 토큰 단위로 자기 증류해 Lean4 정리 증명 추론 성능을 높이는 방법이 arXiv에 공개됐다. GRPO보다 경로 다양성과 pass@k ...
STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.