AI 에이전트가 사람의 개입 없이 장기간에 걸쳐 과학적 연구 과정을 자율적으로 수행하는 프레임워크 Arbor가 공개됐다. 연구팀은 탐색, 실험, 추상화를 반복하는 과학적 진보의 순환 구조를 AI가 자율적으로 실행할 수 있도록 설계했다. Arbor는 장기 코디네이터, 단기 실행자, 그리고 가설·아티팩트·증거·통찰을 시간 축으로 연결하는 영속적 자료구조인 가설 트리 정제(HTR, Hypothesis Tree Refinement)를 결합한다.
코디네이터는 트리 전반에 걸쳐 연구 전략을 관리하고, 실행자들은 격리된 작업 환경에서 개별 가설을 구현·검증한다. 결과가 반환되면 Arbor는 트리를 업데이트하고 재사용 가능한 교훈을 전파하며 탐색 경계를 세밀하게 조정한다. 이 설계는 자율 연구를 국소적 시도의 연속이 아닌, 전략·실행·증거가 시간을 가로질러 누적되는 과정으로 전환한다. 연구팀은 이를 자율 최적화(AO) 설정에서 평가했으며, 에이전트가 단계별 인간 감독 없이 초기 연구 아티팩트를 반복 실험으로 개선하는 방식이다.
모델 학습, 하네스 엔지니어링, 데이터 합성 분야의 6가지 실제 연구 과제에서 Arbor는 모든 과제에서 최고 성과를 달성했다. 동일한 과제 인터페이스와 자원 예산 조건에서 코덱스(Codex) 및 클로드(Claude) 코드 대비 평균 상대적 성과 향상이 2.5배 이상이었다. MLE-Bench Lite에서는 GPT-5.5와 결합해 86.36%의 Any Medal 성과를 기록했다.
AI 에이전트가 반복 실험을 통해 스스로 연구 방향을 개선하는 자율 연구 능력은 과학 발견의 속도를 높이는 잠재력을 지닌다. 특히 기존 에이전트 방식이 단일 시도의 결과에 의존하는 반면, Arbor는 누적된 가설 트리를 통해 과거 실험 결과를 전략적으로 반영하는 구조를 갖춘다. 장기 자율 연구 에이전트 연구에서 증거 기반 전략 조정이 성능을 좌우하는 핵심 요인임을 보여주는 결과다.














