분자 확산 모델에 사후 불확실성 추정 적용, 저품질 샘플 필터링 효과 확인

3D 분자 생성 분야에서 확산 모델(diffusion model)은 광범위하게 채택됐지만, 생성된 분자의 품질이 낮을 가능성을 사전에 알려주는 신호가 없다는 근본적 한계가 있었다. 이번 arXiv 논문은 사전 학습된 분자 확산 모델에 사후적으로 적용할 수 있는 불확실성 추정 방법을 제안해 이 문제를 정면으로 다뤘다.

연구진이 제안한 방법은 노이즈 제거 네트워크에 대한 라플라스 근사(Laplace approximation)를 기반으로 한다. 생성 궤적 전반에 걸쳐 노이즈 예측의 변동성을 측정해 샘플별 불확실성 점수를 산출한다. 실험 결과 이 불확실성 점수는 기존에 확립된 샘플 수준 품질 지표와 음의 상관관계를 보여, 불확실성이 높을수록 생성 품질이 낮음을 실증적으로 확인했다.

연구진은 나아가 이 불확실성 점수를 생성 샘플 필터링에 활용하는 방법도 검토했다. 점수가 높은, 즉 불확실성이 큰 샘플을 걸러냄으로써 테스트 시간 확장(test-time scaling) 맥락에서 모델 성능을 향상시킬 수 있음을 보였다. 테스트 시간 확장은 모델을 다시 학습시키는 대신 추론 단계에서 여러 후보를 생성한 뒤 선별하는 방식으로, 불확실성 점수가 그 선별 기준 역할을 맡는 셈이다. 이는 추가 학습 없이도 추론 단계에서 생성물 품질을 높이는 실용적 경로를 제시한 것이다.

신약 후보 물질 탐색을 비롯한 분자 설계 분야에서 확산 모델의 활용이 늘어나는 가운데, 생성된 구조체의 신뢰도를 자동으로 평가하는 능력은 실용화에 핵심적인 요소다. 이번 연구가 제안하는 사후 불확실성 추정 방식은 기존 모델 구조나 학습 과정을 바꾸지 않고 적용할 수 있어, 다양한 분자 생성 시스템에 즉시 통합 가능하다는 점에서 실용적 의의가 크다.