텍스트로 손-물체 3D 상호작용 생성하는 TextHOI-3D 프레임워크 공개

텍스트 조건에서 손과 물체가 물리적으로 자연스럽게 상호작용하는 3D 메시를 생성하는 프레임워크 TextHOI-3D가 발표됐다. 텍스트 기반 3D 생성은 이미지와 개별 물체 분야에서 빠르게 발전했지만, 손과 물체가 함께 있는 메시를 생성하는 과제는 언어 의미, 시점 간 일관성, 물체 기하 구조, 관절 손 형태, 물리적으로 그럴듯한 접촉 조건을 동시에 만족해야 해 난이도가 높다. 연구팀은 텍스트 조건 시각 생성과 기하학 인식 손-물체 복원 사이의 명시적 인터페이스로 다중 시점 관측값을 활용하는 단계적 프레임워크를 제안했다.

TextHOI-3D는 고정 카메라 방향의 손-물체 관측을 위한 압축된 VQ 토큰 공간을 학습하고, CLIP 조건부 시각 자기회귀 모델로 텍스트에서 다중 시점 시각 토큰을 예측한다. 이어서 사전 초기화, 다중 시점 공동 최적화, 침투 방지 정제 과정을 통해 통합 손-물체 메시를 복원한다. 이 설계는 의미 생성과 기하학적 복원을 분리하면서도 이산적인 다중 시점 표현으로 두 단계를 연결한다.

Minimalist 3D illustration of an 'OK' hand gesture on a beige background. — 사진: cottonbro CG studio / Pexels

HO3D 기반 평가에서 다중 시점 설정은 단일 시점 대비 물체의 챔퍼 거리(Chamfer Distance)를 17.26mm에서 4.92mm로, 침투 부피를 5.3721cm³에서 0.2193cm³로 각각 줄였다. 손 오류와 표면 F-점수도 함께 향상됐다. 이 결과는 다중 시점 시각 토큰이 텍스트 기반 3D 손-물체 메시 생성을 위한 효과적인 중간 표현임을 지지한다.

손과 물체의 상호작용을 정확하게 표현하는 3D 콘텐츠 생성은 가상현실, 증강현실, 로봇 시뮬레이션, 영화·게임 제작 등 다양한 분야에서 응용 가능성이 있다. 특히 물리적 접촉의 현실성은 기존 단일 시점 접근법에서 해결하기 어려운 과제였는데, TextHOI-3D의 다중 시점 중간 표현 방식은 이 문제를 구조적으로 접근한다는 점에서 주목받는다.