대형 언어 모델(LLM, Large Language Model)의 추론 시점 확장을 연구자가 설계한 고정 규칙이 아니라 LLM 오케스트레이터 자신이 제어하는 에이전트형 프레임워크 ATLAS가 공개됐다. 기존 테스트 시점 확장 방식은 샘플 예산, 정제 루프, 채점 기준, 탐색 정책을 모두 사람이 사전에 고정해 두어, 모델은 문제를 푸는 역할만 담당하고 컴퓨팅 자원 배분에는 개입할 수 없었다. ATLAS는 이 한계를 해소하기 위해 오케스트레이터가 제어 루프 전체를 소유하는 구조를 채택했다.
핵심 작동 원리는 단일 액션인 ‘탐색(explore)’에 있다. 오케스트레이터는 이 액션으로 원래 문제에 대한 독립적인 풀이 에이전트를 새로 투입할지 결정하고, 충분한 근거가 모이면 탐색을 중단하고 최종 답을 합성한다. 탐색 호출 시 풀이 모델의 종류, 추론 강도, 프롬프팅 전략을 옵션으로 지정할 수 있어 액션 공간을 확장할 수 있다. 클로드 소네트(Claude Sonnet) 4.6을 백본으로 사용한 평가에서 ATLAS는 과학 질의응답, 코드 생성, 멀티모달 추론 등 4개 벤치마크에서 HLE-Verified 56.00%, LiveCodeBench 82.29%, GPQA-Diamond 85.75%, BabyVision 23.71%를 기록했으며, 고정 워크플로우 방식 대비 API 호출 수가 훨씬 적었다.

풀이 모델 선택까지 추가 액션 차원으로 개방한 멀티모델 확장판 ATLAS-MM은 HLE-Verified 60.00%, LiveCodeBench 85.63%로 성능을 더 끌어올렸고, GPQA-Diamond와 BabyVision에서도 일관된 향상을 보였다. 오케스트레이터의 직접 합성 대신 별도 통합 모델을 두는 설계로 교체했을 때에는 4개 벤치마크 중 3개에서 정확도가 하락하거나 개선이 없었다. 이는 상태 기반 증거 관리가 성능 향상의 핵심 요인임을 시사한다.
테스트 시점 확장 연구는 그동안 고정된 탐색 예산과 사람이 설계한 워크플로우에 의존해 왔다. ATLAS는 오케스트레이터가 어떤 근거를 얼마나 수집할지 스스로 판단하는 자율적 자원 배분을 구현함으로써, 에이전트형 추론의 새로운 방향을 제시했다는 평가를 받는다.














