ReAct 방식 LLM 에이전트가 여러 문제에서 동일한 추론 루틴을 반복적으로 재발견하면서도 그 패턴을 휘발성 스크래치패드 바깥에 보존하지 못하는 한계를 극복하는 방법이 arXiv에 발표됐다(arXiv:2606.02994). 연구팀은 이를 ‘추론 원형 귀납(Reasoning Primitive Induction)’이라 명명하고, 단일 패스로 성공적인 ReAct 실행 흔적을 분석해 반복 등장하는 추론 동작을 클러스터링한 뒤 자주 사용되는 동작들을 타입이 지정된 ‘의사 도구(pseudo-tool)’ 라이브러리로 변환하는 방법을 제안했다.
의사 도구는 LLM이 호출 시점에 해석하는 자연어 독스트링(docstring)으로 명세되며, 표준 ReAct 루프가 테스트 시점에 이 원형들을 조합해 활용한다. 연구의 핵심 결과는, 귀납된 라이브러리가 그 라이브러리를 생성하는 데 사용된 에이전트의 성능을 능가한다는 점이다. 구체적으로는 RuleArena NBA 과제에서 30%에서 74%로 44%포인트 향상, MuSR 팀 배분 과제에서 38%에서 68%로 30%포인트 향상, NatPlan 회의 계획 과제에서 7%에서 29%로 22%포인트 향상이 확인됐다.
연구진은 서술적 추론, 규칙 적용, 제약 충족 계획에 걸쳐 5개 하위 과제를 포함한 비교 실험에서 단일 고정 설정이 모든 하위 과제에서 제로샷 연쇄 사고(CoT)를 능가하고, 전문가가 직접 설계한 분해 방식과 동등하거나 그 이상이며, 비교 대상인 AWM 방법보다 낮은 평균 추론 비용으로 더 높은 성능을 냈다고 밝혔다. 이는 에이전트가 축적한 경험을 재사용 가능한 지식으로 구조화하는 단순하고 효과적인 경로를 제시한다는 점에서 의미가 있다.
이 연구는 LLM 에이전트 시스템이 반복 작업에서 학습을 축적하는 방식에 대한 근본적인 질문을 다룬다. 에이전트가 매번 처음부터 추론하는 대신 과거 성공 패턴을 라이브러리화해 재사용하는 방향은, 장기적으로 에이전트의 효율성과 범용성을 동시에 높이는 접근으로 주목받는다.














