결측치 중 '의미 있는 공백' 구별하는 확산 기반 프레임워크 Diff-Joint 제안

결측치 중 ‘의미 있는 공백’ 구별하는 확산 기반 프레임워크 Diff-Joint 제안

머신러닝 분야에서 결측치(missing value) 대체는 오랫동안 중요한 과제로 다뤄져 왔다. 기존 방법들은 모든 결측 항목이 관측 과정에서 누락된 실제 값이라고 전제하지만, 현실의 많은 데이터셋에서는 그렇지 않은 경우가 존재한다. 어떤 결측은 관측 과정상의 누락이어서 대체가 필요한 반면, 다른 결측은 애초에 값 자체가 존재하지 않는 ‘의미상 공백’으로 그대로 보존하는 것이 올바른 처리다. 연구팀은 이 두 가지를 구분하지 않고 무조건 채우려는 기존 접근법의 한계를 지적하고, 이를 ‘선택적 대체(selective imputation)’ 문제로 새롭게 정의했다.

이 문제를 해결하기 위해 연구팀은 Diff-Joint라는 확산(diffusion) 기반 프레임워크를 제안했다. Diff-Joint는 표 형식의 데이터와 결측 여부를 나타내는 잠재 마스크를 함께 모델링한다. 조건부 샘플링과 불확실성 인식 집계를 반복적으로 교차 적용해, 대체해야 할 값과 그대로 보존해야 할 결측 레이블 양쪽을 동시에 점진적으로 정제해나가는 구조다. 인공 데이터셋과 실제 데이터셋 모두에서 실험한 결과, Diff-Joint는 의미 있는 결측 항목을 효과적으로 식별하면서도 경쟁력 있는 대체 정확도와 향상된 다운스트림 태스크 성능을 달성했다.

Laptop displaying charts and graphs with tablet calendar for data analysis and planning. — 사진: Pixabay / Pexels

이 연구는 단순한 대체 정확도를 넘어 어떤 결측을 채울 것인지 자체를 학습 대상으로 삼는다는 점에서 차별점이 있다. 의료 기록, 설문 데이터, 센서 로그 등 결측의 원인이 다양한 실세계 데이터를 다루는 ML 파이프라인에서 데이터 품질과 모델 신뢰성을 높이는 데 기여할 수 있을 것으로 기대된다. 해당 연구는 arXiv에 논문 번호 2606.05073으로 공개됐다.