COMET, 객체 단위 인과 구조로 몬테카를로 트리 탐색 강화학습 성능 높여

연구자들이 객체(object) 단위 인과 구조를 몬테카를로 트리 탐색(Monte Carlo Tree Search)에 결합한 강화학습 알고리즘 COMET(Causal Object-centric Model for Efficient Tree search)을 공개했다. 2026년 6월 12일 arXiv에 제출된 이 논문은 장면을 개별 물체 단위로 분리하는 슬롯(slot) 기반 잠재 공간에서 계획을 수립하는 방식을 채택해, 기존의 단일 표현 기반 계획보다 이른 학습 단계에서 더 높은 성과를 달성했다고 밝혔다.

COMET는 사전 학습된 비지도 방식의 객체 중심 인코더를 고정(frozen)한 채 트랜스포머(transformer) 기반 세계 모델(world model)과 결합한다. 핵심 기제는 행동-슬롯 융합(action-slot fusion) 메커니즘으로, 에이전트가 취하는 행동을 특정 슬롯, 즉 장면 안의 특정 물체와 결속시켜 다음 상태 전이를 예측한다. 정책(policy)과 가치(value) 헤드에는 객체 인과 어텐션(object-causal attention)이 적용돼 슬롯별로 학습된 관련도 점수에 따라 토큰 간 상호작용을 조절함으로써, 의사결정이 과제와 무관한 객체보다 핵심 객체에 집중되도록 유도한다. 이 설계는 MuZero 방식의 잠재 계획에 명시적인 객체 수준 귀납적 편향(inductive bias)을 추가한 것으로 볼 수 있다.

성능 검증은 Object-Centric Visual RL 벤치마크, ManiSkill, Robosuite, VizDoom 등 시각적·동역학적으로 다양한 환경 8개를 대상으로 이루어졌다. COMET는 학습 초기 단계의 평균 정규화 점수에서 객체 중심 방법론 및 단일 표현(monolithic) 기반 베이스라인 모두를 상회했다. 연구팀은 물체 단위 표현이 계획 탐색 공간을 구조화해 샘플 효율을 높이는 데 기여한다고 분석했다. 로봇 조작이나 시각 기반 제어처럼 장면 내 다수 객체의 관계 파악이 중요한 영역에서 이 접근법의 실용적 가능성이 있다고 볼 수 있다.