2D 확산 모델로 자율주행용 3D 시맨틱 장면 생성·편집 가능하게

자율주행 애플리케이션에서 필요한 3D 시맨틱 점유 장면(semantic occupancy scene)을 2D 버드아이뷰(BEV) 표현과 기성 잠재 확산 네트워크를 활용해 생성하고 편집할 수 있는 방법 EditSSC가 제안됐다. 기존 3D 시맨틱 장면 생성 방법들은 트리플레인 인코더와 맞춤형 확산 네트워크 같은 복잡한 3D 전용 아키텍처에 의존해 구조적 단순성과 편집 가능성 모두에서 한계를 보였다.

EditSSC는 3D 시맨틱 점유 격자를 다채널 BEV 이미지로 변환한 뒤, 스테이블 디퓨전(Stable Diffusion)의 양자화 오토인코더와 UNet을 최소한의 수정만 거쳐 그대로 활용한다. 양자화 이후 잠재 공간에서 확산을 수행하는 방식이 훈련 없는 편집 기능을 가능하게 한다는 것이 핵심 원리다. 코드북 안의 클래스-코드 대응 관계를 활용해 스케치 기반 생성, 인페인팅, 아웃페인팅을 재훈련 없이 지원한다. SemanticKITTI 데이터셋에서 비조건 생성 기준으로 기존 3D 전용 기준선들을 앞서는 성능을 달성했다.

이번 연구는 수년간 2D 이미지 생성 분야에서 검증된 아키텍처와 도구를 3D 장면 생성에 효과적으로 재활용할 수 있음을 보여준다. 특히 별도 재훈련 없이 편집 기능을 지원한다는 점은 자율주행 시뮬레이션에서 다양한 시나리오를 신속하게 생성하고 수정해야 하는 실제 운용 요구와 잘 맞아떨어진다.

자율주행 시스템 개발에서 다양한 도로 환경과 위험 상황을 시뮬레이션으로 재현하는 능력은 안전성 검증의 핵심 요소다. EditSSC처럼 간단한 구조로 편집 가능성을 갖춘 장면 생성 방법이 보편화된다면, 자율주행 훈련 데이터 확보와 시뮬레이션 기반 안전 테스트 비용을 낮추는 데 기여할 것으로 전망된다.