OpenAI가 프론티어 AI 모델의 독립 평가를 설계하고 보고하는 데 필요한 공통 지침을 담은 문서를 공개했다. 이 문서는 역량 도출(capability elicitation), 안전장치 성능, 모델 간 비교라는 세 가지 평가 유형을 구분하고, 각 유형에 적합한 평가 환경 설계 원칙을 제시한다. 아울러 평가 결과의 신뢰도를 해치는 주요 요인으로 보상 해킹·응답 거부·훈련 데이터 오염·문제 결함·의도적 과소 수행(샌드배깅) 다섯 가지를 명시하고, 유효한 평가 보고서라면 이 요인들을 어떻게 점검했는지 설명해야 한다고 요구했다.
OpenAI가 특히 강조한 것은 평가 환경, 즉 ‘하네스(harness)’의 역할이다. 오늘날 프론티어 모델은 단순 질의응답 방식이 아니라 도구 사용, 다단계 추론, 복잡한 워크플로 실행이 가능하다. 이 때문에 동일한 모델도 하네스 구성에 따라 측정되는 역량 수준이 달라질 수 있다. 예를 들어 장기 맥락을 압축하는 기능을 지원하는 하네스에서는 GPT-5.5가 사이버 범위 과제에서 더 높은 성능을 보인 사례가 확인됐다. OpenAI는 역량을 최대로 끌어내려는 평가라면 실제 능숙한 사용자가 합리적으로 사용할 법한 하네스를 써야 하고, 모델 간 통제된 비교를 목적으로 한다면 과제·채점·예산이 고정된 공유 하네스를 써야 한다고 구분했다.

이 가이드라인은 AI 안전 생태계에서 독립 평가가 차지하는 비중이 커지는 흐름을 반영한다. 각국 정부와 표준화 기관이 AI 모델 출시 전 제3자 평가를 의무화하거나 권고하는 사례가 늘고 있으며, 평가 방법론의 일관성 부재가 결과 해석과 비교를 어렵게 만든다는 비판도 제기돼 왔다. OpenAI는 이 문서가 평가 기관들이 참고할 수 있는 공통 언어와 기준이 되길 기대한다고 밝혔다. 다만 방법론 표준화가 실질적으로 자리 잡으려면 다른 주요 AI 개발사들과의 폭넓은 합의가 필요하다는 과제도 남아 있다.
OpenAI는 이번 가이드라인이 신흥 표준 형성에 기여하길 바란다는 입장을 밝히며, 특히 멀티 스텝 도구 사용과 장기 에이전트 작업이 일반화된 현재의 프론티어 모델 환경에 맞는 평가 실무를 업계가 공동으로 발전시켜 나갈 필요성을 강조했다.


