범용 AI 시스템의 예측 능력을 평가하는 새로운 벤치마크 ‘ForecastBench-Sim’이 제안됐다. 2026년 6월 17일 arXiv에 공개된 논문에 따르면, 이 벤치마크는 문명 시리즈를 모델로 한 오픈소스 전략 턴제 게임 프리시브(Freeciv)의 게임 진행 결과를 기반으로 설계됐다. 기존 실세계 예측 벤치마크는 결과가 느리게 확정되고, 극단적 사건이 드물며, 가상의 반사실적 질문에 점수를 매기기 어렵다는 구조적 한계를 안고 있다. ForecastBench-Sim은 시뮬레이션 환경을 활용해 이러한 제약을 벗어나는 것을 핵심 목표로 삼는다.
벤치마크 방식은 다음과 같다. 예측 모델은 현재 게임 상태의 정형화된 스냅샷인 ‘월드 리포트’를 받고, 숨겨진 미래 상태에 관한 질문에 답한다. 그 뒤 시뮬레이션이 계속 진행되면서 예측의 정확성이 채점된다. 시뮬레이션 환경이기 때문에 동일한 설정에서 연속형·이진형 예측 질문을 임의의 시간 범위로 생성하고, 조건부 또는 인과적 질문을 위한 개입 세계 쌍을 구성하며, 드물거나 급격한 사건에 대한 해결 사례도 생성할 수 있다. 연구팀은 벤치마크 파이프라인, 질문 유형, 채점 방식, 공개 자료를 함께 제시하고 모델 평가 슬라이스와 익명 인간 파일럿 결과도 보고했다.
ForecastBench-Sim은 실세계 예측 벤치마크를 대체하는 것이 아니라 보완하는 역할을 목표로 한다. 동적인 세계 상태에서 확률적 추론을 연구하기 위한 통제 가능하고 즉각적으로 결과가 확인되는 과제를 제공한다는 점이 핵심 기여다. AI 모델의 예측 능력 평가는 금융 예측, 기상 예측, 전략적 의사결정 등 다양한 실용 분야에서 중요한 능력으로 부각되고 있으며, 이를 체계적으로 측정하는 도구의 필요성이 연구 커뮤니티에서 꾸준히 제기돼 왔다. 게임 시뮬레이션 기반 평가 환경이 현실 세계 예측 능력 연구에 유효한 대리 환경으로 자리 잡을 수 있을지 후속 연구가 주목된다.














