LLM의 대화형 추론을 측정하는 계층적 게임 벤치마크 제안
474종의 실행 가능한 게임으로 구성된 새 벤치마크가 LLM의 상호작용 추론 능력을 다차원으로 평가해, 모델 간 성능 차이가 기존 지표보다 훨씬 ...
474종의 실행 가능한 게임으로 구성된 새 벤치마크가 LLM의 상호작용 추론 능력을 다차원으로 평가해, 모델 간 성능 차이가 기존 지표보다 훨씬 ...
STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.