자율 진화형 딥 리서치 에이전트 학습 프레임워크 HOTE, 개방형 태스크 한계 극복

개방형 환경에서 자율적으로 정보를 수집·통합해 복잡한 연구 태스크를 수행하는 딥 리서치 에이전트의 능력을 강화하는 새 학습 프레임워크가 제안됐다. 2026년 6월 10일 arXiv(2606.13710)에 공개된 하이브리드 개방형 삼중 진화(HOTE, Hybrid Open-Ended Tri-Evolution) 프레임워크는 검증 가능한 태스크에서만 효과가 입증돼 왔던 에이전트 진화 방법론을 개방형 연구 태스크에 적용하기 위한 시도다.

HOTE는 제안자(proposer), 해결자(solver), 평가자(judge) 세 모듈의 협력 진화를 위해 하이브리드 모드 강화학습을 활용한다. 웹 규모의 지식을 바탕으로 세 모듈이 함께 진화하며 개방형 태스크와 환경에서 자율적으로 성장하는 에이전트 구조를 목표로 한다. 세 가지 장문형 딥 리서치 벤치마크에서 HOTE로 훈련된 8B 모델이 기존 최강 정적 오픈 8B~32B 모델과 최신 딥 리서치 훈련 방법으로 학습된 모델들을 더 적은 시간 비용으로 능가한 것으로 알려졌다.

연구팀은 HOTE 내 세 모듈의 진화가 모두 불가결하다는 점을 실험으로 검증했다고 밝혔다. 기존 딥 리서치 시스템이 에이전트 시스템의 정적 파라미터 능력에 제한받는 문제를 해결하기 위해, 개방형 환경에서의 경험 누적과 역할 분리 진화를 결합한 것이 핵심 기여로 평가된다.

딥 리서치는 정해진 정답이 없는 개방형 환경에서 자율적으로 정보를 검색·통합해 복잡한 연구 과제를 수행하는 작업을, 에이전트 진화는 에이전트가 환경과 상호작용하며 얻은 경험으로 모델 능력 자체를 키워 가는 작업을 가리킨다. 연구팀은 후자가 그동안 표준 정답이 존재하는 검증 가능한 과제에서만 효과가 폭넓게 입증돼, 정답이 열려 있는 연구 과제와는 간극이 있었다고 지적한다. HOTE는 이 두 흐름을 잇기 위해 제안자·해결자·평가자가 웹 규모 지식을 바탕으로 함께 진화하는 구조를 택했다.

이 같은 자가 진화형 에이전트 접근은 더 큰 모델을 쓰지 않고도 소형 모델의 실전 능력을 끌어올릴 수 있다는 점에서 효율 측면의 함의가 크다. 정적 파라미터에 갇힌 기존 에이전트의 한계를 경험 누적으로 보완하는 방향은, 비용 부담이 큰 대형 모델 의존을 줄이려는 산업계 수요와도 맞닿아 있어 후속 연구의 참조점이 될 전망이다.