VLM이 Blender 코드로 3D 객체를 만드는 새 재구성 패러다임 제안

NeRF(신경망 복사 필드), 포인트 클라우드, 메시 등 기존 3D 표현 방식의 한계를 넘기 위해 VLM(비전-언어 모델)이 실행 가능한 Blender 코드를 직접 생성하는 새로운 3D 재구성 패러다임 3D-CoS(3D Code Synthesis)가 제안됐다. arXiv에 공개된 이 연구는 3D 자산을 저수준 표현이 아닌 프로그램적·해석 가능한 코드로 구성하는 접근이 특히 편집 제어 측면에서 강점을 보임을 체계적으로 검증했다.

연구진은 오픈소스 및 클로즈드소스 VLM들을 코드 기반 재구성 과제에 통일된 프로토콜로 평가했다. 또한 청사진 기반 계획, Blender API 문서에 대한 RAG(검색 증강 생성), 소수 예시 기반 기하 학습, 부품 단위 코드 생성을 위한 컴포넌트 수준 에이전트 워크플로 등 구조화된 코드 합성 흐름을 추가로 제안했다. 코드 기반 표현의 고유 장점을 보이기 위해 국소 텍스트 기반 수정 실험도 수행했으며, 포인트 클라우드 기반 3D 편집 기준선과 직접 비교했다.

Vibrant red abstract 3D rendering with dynamic curves and glossy surfaces, perfect for modern aesthetics. — 사진: Steve A Johnson / Pexels

결과적으로 코드 표현은 강력한 편집 제어성과 지역성을 제공하며, 목표 편집 실험에서 편집 충실도가 높고 수정되지 않은 영역의 보존이 우수한 것으로 나타났다. 기존 NeRF나 포인트 클라우드 방식은 렌더링 품질은 높지만 프로그래밍적으로 다루기 어렵다는 근본적인 한계를 지닌다. 3D-CoS는 3D 표현을 코드로 추상화함으로써 사람이 이해하고 수정할 수 있는 형태로 3D 모델을 만든다는 점에서 차별화된다.

연구는 아울러 현재 VLM들이 프로그래밍 방식의 3D 모델링에서 어느 수준까지 가능한지를 분석하고 이 패러다임의 잠재력과 현재 한계를 함께 조망했다. 코드 합성을 통한 편집 가능한 3D 재구성은 콘텐츠 제작 도구 및 디지털 트윈 분야에서 새로운 설계 방향을 열 수 있는 방향으로 평가된다.