로봇 조작 정책의 기하학적 오류 바로잡는 LDA 제안

연구팀이 확산 기반 비전-언어-행동(VLA) 정책이 범하는 근본적인 기하학적 오류를 지적하고 이를 수정하는 Lie Diffuser Actor(LDA) 프레임워크를 제안했다. 로봇 조작에서 물체의 위치와 자세를 나타내는 SE(3) 변환은 곡면 다양체 위에 정의되는데, 기존 VLA 정책들은 이를 단순한 12차원 실수 벡터로 평탄화해 다루는 이른바 ‘유클리드 오류(Euclidean Fallacy)’를 저지른다는 것이 연구팀의 분석이다. 이 근사는 회전군 SO(3)의 제약 조건을 위반하는 다양체 이탈, 좌표 변환에서 등변성 붕괴, 기하학적 최단 경로를 무시하는 비측지적 궤적이라는 세 가지 문제를 유발한다.

LDA는 SE(3) 위에서 본질적으로 동작하는 확산 프레임워크다. 좌-불변 확률 미분 방정식(SDE)을 통해 노이즈를 주입하고, 탄젠트 공간에서 스코어를 예측한 뒤, 지수 사상(exponential map)을 통해 샘플을 다양체로 되돌리는 방식을 채택했다. 이 설계는 구조적으로 다양체 이탈을 원천 차단하는 동시에 좌표계 등변성과 측지적 최적성을 보장한다.

연구팀은 로봇 조작 벤치마크 CALVIN ABC→D에서 평균 과제 수행 길이가 기존 3.27에서 3.51로 향상됐다고 밝혔다. 이는 7.3퍼센트의 개선에 해당하며, 실제 로봇 환경에서도 검증을 통해 기준 모델 대비 다수 과제에서 우수한 성능을 확인했다. 로봇이 물체를 집고 옮기는 동작은 위치와 회전을 함께 다루는 SE(3) 변환으로 표현되는데, 이를 평면 벡터로 단순화하면 회전이 지켜야 할 제약이 깨지고 좌표계를 바꿀 때 동작이 일관되지 않거나 불필요하게 먼 경로를 그리는 문제가 생긴다. LDA는 이런 오차를 사후에 보정하는 대신 다양체 위에서 직접 동작하도록 설계해 구조적으로 차단했다는 점이 핵심이다. 기하학적으로 올바른 표현 공간을 확산 정책에 도입함으로써 로봇 조작의 정밀성과 신뢰성을 높일 수 있음을 보인 연구다.