LLM 판사 평가 표준화하는 정책 루브릭 측정 명세 PReMISE 발표
정책 루브릭을 측정 명세로 활용해 LLM 판사 평가의 일관성과 신뢰성을 높이는 PReMISE 프레임워크가 arXiv에 공개됐다.
정책 루브릭을 측정 명세로 활용해 LLM 판사 평가의 일관성과 신뢰성을 높이는 PReMISE 프레임워크가 arXiv에 공개됐다.
비전문가도 LLM 성능을 감사할 수 있도록 설계된 오픈소스 평가 프레임워크 LLM-FACETS가 arXiv에 공개됐다. EU AI법·NIST 프레임워크와 연계된 구조다.
STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.