장기 에이전트 과제 맥락 간섭 해결하는 HIPIF 계층 계획 학습법

LLM(대규모 언어 모델) 기반 에이전트가 다단계 장기 과제에서 급격히 성능이 저하되는 문제를 해결하기 위해 HIPIF(Hierarchical Planning and Information Folding)가 제안됐다. arXiv(2606.10507)에 2026년 6월 9일 게재된 이 연구는 하위 목표 분해와 완료된 하위 목표 이력의 압축 요약을 결합해 장기 컨텍스트 간섭을 직접 억제하는 접근법을 제시한다.

기존 연구들은 세밀한 공헌도 추정이나 계층적 강화학습으로 장거리 희소 보상 및 작업 분해 문제를 어느 정도 다뤘지만, 실행 이력이 계속 누적되면서 에이전트가 전체 과제 상태를 추적하는 능력이 약해지는 장기 컨텍스트 간섭 문제는 직접 해결하지 않았다. HIPIF는 에이전트가 명시적 하위 목표 중심으로 장기 실행을 조직하면서, 완료된 하위 목표의 이력을 접어 압축함으로써 누적 간섭을 줄인다. 하위 목표 생성과 전환 및 실행을 안정화하기 위해 계층적 성찰과 하위 목표 지향 과정 보상을 결합했으며, 이 과정에서 고비용 보조 모델이나 과제별 전문가 궤적에 의존하지 않는다.

이 방법은 사람이 복잡한 과제를 처리할 때 자연스럽게 사용하는 하위 목표 분해와 완료된 진행 과정 요약이라는 전략에서 영감을 받았다. 에이전트는 종단 간 방식으로 학습돼 하위 목표 실행 전반을 일관성 있게 관리할 수 있다. 연구진은 공개된 세 가지 에이전트 벤치마크에서 광범위한 실험을 통해 방법의 유효성을 검증했다.

AI 에이전트가 웹 탐색, 소프트웨어 엔지니어링, 다단계 추론 등 점점 더 복잡한 장기 과제에 투입되는 상황에서, 컨텍스트 창이 방대한 이력으로 오염되는 문제는 실용적 에이전트 설계의 핵심 병목으로 지목된다. HIPIF는 이 문제를 구조화된 계획과 정보 압축의 조합으로 접근하며, 보조 자원 없이도 성능을 향상시킬 수 있다는 가능성을 제시한다.