PlanGPT 재검증 연구: LLM 계획 능력, 탐욕 탐색 수준에 그쳐

LLM이 자동화 계획(Automated Planning) 과제에서 실질적인 가치를 지니는지에 대한 재검증 연구가 arXiv에 발표됐다. 자동화 계획은 초기 상태에서 목표 상태까지 이르는 행동 시퀀스를 생성하는 인공지능의 하위 분야로, 이 분야에는 수십 년간 발전해온 전통적 플래너들이 존재한다. 연구팀은 지난해 공개된 PlanGPT 논문의 실험 일부를 재현하고, 계획 비용과 계획 생성 시간이라는 두 가지 성능 지표를 추가해 보다 포괄적인 평가를 수행했다.

연구팀은 PlanGPT가 공식 논문에서 보고한 계획 커버리지(plan coverage) 수치가 정확한지를 먼저 확인했다. 또한 PlanGPT의 결과를 동일한 계획 문제에 대해 전통적 플래너의 결과와 직접 비교했다. 자동화 계획 문제는 객체 집합, 초기 상태, 목표 상태로 정의되며 이를 해결하는 프로그램을 플래너라 부른다. 연구팀이 추가한 계획 비용과 계획 생성 시간 지표는 단순 커버리지 이상의 실용적 성능을 측정하기 위한 것이었다.

검증 결과 PlanGPT의 공식 논문 수치에 의문이 제기됐으며, 계획 비용과 생성 시간 측면에서 PlanGPT는 탐욕 탐색(Greedy search) 전략과 비교해 우위를 보이지 못했다. 연구팀은 이를 바탕으로 LLM을 이용한 계획 생성이 현재 단계에서 전통적 방법 대비 실질적 이점을 갖는지에 대해 신중한 입장을 제시했다. LLM이 자연어 이해나 코드 생성 영역에서 보인 성과가 구조화된 계획 탐색 영역으로 곧바로 이어지지 않는다는 점이 이번 연구에서 드러났다.

이 연구는 LLM 능력에 대한 과대 평가를 경계하고 엄밀한 비교 실험의 필요성을 환기한다는 점에서 의미가 있다. AI 계획 연구 분야에서 LLM 활용의 적절한 범위와 한계를 규명하는 작업이 앞으로 더 필요하다는 점을 시사하며, 동시에 기존 벤치마크 결과의 재현 가능성을 독립적으로 검증하는 연구의 중요성도 상기시킨다.