Surflo, 단일 글로벌 잠재 벡터로 임의 해상도 3D 표면 복원

연구팀이 복수의 비정렬 RGB 이미지에서 일관된 3D 표면을 복원하는 피드포워드 모델 Surflo를 제안했다. 기하학은 시점에 독립적이라는 원칙에서 출발한 Surflo는 가변 개수의 입력 이미지를 K개의 잠재 토큰, 즉 단일 글로벌 상태로 압축한 뒤, 독립적인 플로우 매칭(flow matching)을 통해 노이즈에서 표면 위 3D 포인트로 방향이 지정된 점들을 디코딩한다.

이 구조의 핵심 장점은 출력이 고정된 격자나 토큰 예산에 묶이지 않는다는 점이다. 동일한 잠재 표현에서 단일 순전파(forward pass)로 수천 개에서 최대 백만 개에 이르는 포인트를 유연하게 생성할 수 있다. 포인트별 독립 디코딩에서 발생하는 지역적 불일치를 억제하기 위해 추론 시 광도 기반 기울기(photometric gradient)를 ODE 적분에 주입해 인접 포인트 간 상관관계를 유도하는 가이던스 항도 도입했다.

기존 피드포워드 재구성 방식은 뷰별 방법과 글로벌 잠재 방법으로 나뉜다. 뷰별 방법은 입력 수에 비례해 겹치는 포인트맵이 선형적으로 증가하고, 글로벌 잠재 방법은 출력 해상도가 고정된다는 한계가 있었다. Surflo는 두 가지를 동시에 극복해 표면 품질 지표에서 피드포워드 기준선과 동등하거나 이를 능가하며, 수백 개의 뷰를 필요로 하는 최적화 기반 방법보다 한 차수(order of magnitude) 이상 빠르게 동작한다.

연구팀에 따르면 Surflo는 글로벌 잠재 표현과 임의 해상도 디코딩을 결합한 유일한 피드포워드 방식이다. 소수의 비정렬 이미지만으로 고해상도 3D 표면을 빠르게 얻을 수 있는 이 접근법은 자율주행, 로봇 비전, 콘텐츠 제작 등 3D 이해가 요구되는 다양한 응용 분야에 기여할 수 있을 것으로 전망된다.