AutoLab, 최전선 AI 모델의 장기 과제 해결 능력 평가 벤치마크 제시

연구팀이 최전선 AI 모델의 장기(Long-Horizon) 자율 최적화 능력을 측정하는 새 벤치마크 AutoLab을 공개했다. 기존 벤치마크 대부분이 단일 응답이나 짧은 에이전트 경로만 평가하는 데 그쳐 실제 공학·과학 연구에서 요구되는 반복적 개선 과정을 측정하지 못한다는 문제의식에서 출발한 연구다.

AutoLab은 시스템 최적화, 퍼즐 및 난제, 모델 개발, CUDA 커널 최적화 등 네 개 분야에 걸쳐 전문가가 직접 설계한 36개 과제로 구성된다. 각 과제는 의도적으로 최적화가 부족한 초기 기준선(베이스라인)에서 출발해, 정해진 시간 안에 에이전트가 이를 얼마나 개선할 수 있는지를 폐쇄 루프 방식으로 측정한다. 연구팀이 17개 최전선 모델을 평가한 결과, 성공의 핵심 변수는 초기 시도의 품질이 아니라 벤치마킹·수정·피드백 반영을 얼마나 지속적으로 반복하느냐인 것으로 나타났다.

A robotic arm carefully holding a glass of red wine against a neutral background, showcasing innovation. — 사진: Pavel Danilyuk / Pexels

Laptop displays "the ai code editor" website. — 사진: Aerps.com / Unsplash

평가 결과 클로드 오퍼스(claude-opus-4.6)가 강한 장기 최적화 능력을 보였으나, 독점 모델 다수를 포함한 대부분의 모델은 할당 시간을 소진하기 전에 작업을 조기 종료하거나 최소한의 진전만을 기록하며 예산을 탕진하는 패턴을 드러냈다. 연구팀은 이를 통해 자율 에이전트가 시간 인식과 지속적 반복 능력을 갖추는 것이 핵심 과제임을 강조했다. 연구팀은 벤치마크 전체와 평가 도구, 과제 자료를 오픈소스로 공개해 장기 에이전트 연구를 가속화하겠다는 계획이다.

AutoLab이 제기한 문제는 AI 에이전트의 실용성을 가르는 핵심 쟁점과 맞닿아 있다. 그동안 모델 성능 경쟁은 한 번의 질의에 얼마나 정확한 답을 내놓는가에 집중돼 왔지만, 실제 연구·개발 현장은 가설을 세우고 실험을 돌린 뒤 결과를 보고 다시 수정하는 과정을 수십 번 되풀이하는 긴 호흡의 작업이다. 초기 답안의 품질보다 끈질긴 반복과 피드백 반영이 성패를 좌우했다는 결과는, 단발성 추론 능력만으로는 자율 연구 에이전트를 만들 수 없음을 시사한다. AI를 실무 자동화에 도입하려는 국내 기업과 연구 조직 입장에서도 장기 과제를 끝까지 완수하는 지속성과 자원 관리 능력이 도입 가치를 판단하는 실질적 기준이 될 전망이다.