WorldLines, 장기 기억 활용 가정용 로봇 에이전트 평가 벤치마크 제안

연구진이 가정 환경에서 장기간 인간을 보조하는 체화된 에이전트(embodied agent)의 능력을 평가하는 벤치마크 WorldLines를 발표했다. 이 연구는 현재 존재하는 장기 기억 벤치마크들이 주로 언어 중심의 검색과 질의응답에 집중하거나, 체화 벤치마크의 경우 동적 환경에서 장기 기억을 실제로 활용하는지는 평가하지 않고 단기 과제 실행에 그친다는 한계를 출발점으로 삼는다.

WorldLines는 프로젝트 단위로 구성된 가정 내 보조 작업을 다루는 벤치마크로, 에이전트가 사용자 루틴, 세계 상태, 과거 상호작용을 기억해야 수행할 수 있는 시간적으로 확장된 가정 활동 기록을 구성한다. 구체적으로는 대화, 행동, 실행 피드백, 사물 및 기기 상태 변화를 담은 흔적 데이터를 생성하고 이를 메모리 질의응답(Memory QA)과 체화된 과제 계획(Embodied Task Planning)을 위한 증거 연결 샘플로 변환한다. 연구진은 실험 결과에서 부분 관측 가능성, 덮어 쓰인 세계 상태 추적, 장기 기억을 실제 행동 계획으로 연결하는 과정에서 에이전트가 일관된 어려움을 겪는다고 밝혔다.

이와 함께 연구진은 ObsMem이라는 메모리 프레임워크도 제안했다. ObsMem은 시야 가시성을 고려한 메모리와 행동 중심의 상태 경로를 유지함으로써 에이전트가 상태 변화를 인지하고 의사결정을 내릴 수 있도록 돕는다. WorldLines와 ObsMem은 동적 가정 환경에서 장기 기억을 실제로 활용하는 사회적 체화 에이전트 개발을 위한 기준 아키텍처를 제공하려는 시도다. 가정용 로봇과 AI 보조 시스템이 단순 명령 수행을 넘어 맥락을 기억하고 장기 프로젝트를 지원하는 방향으로 발전하려면 이러한 평가 체계의 확립이 선행 과제라는 점에서 이 연구가 갖는 의미가 있다.