합성 데이터로 반복 학습하는 과정에서 데이터 선택 자체가 모델 붕괴(model collapse)를 촉진하는 메커니즘으로 작용할 수 있다는 연구가 2026년 6월 11일 arXiv(2606.13732)에 공개됐다. 합성 데이터의 재귀 학습은 데이터 부족 문제를 완화할 수 있지만, 반복 훈련이 분포 꼬리(distributional tails)를 침식하고 출력을 균질화하는 모델 붕괴 위험을 수반한다. 데이터 선택은 이 문제의 해결책으로 널리 인식돼 왔으나, 이 연구는 그 신뢰성이 검증자가 사용하는 참조 분포에 결정적으로 의존한다는 점을 지적한다.
검증자가 목표 다양체의 작고 파편화되고 편향된 단면만 관측하는 자원 빈약 검증 체계에서는 선택 자체가 편향된다. 이 상황은 의료 컨소시엄이나 독점 금융 기관처럼 원시 데이터를 공유할 수 없고 로컬 참조가 불완전한 자원 빈약 데이터 사일로에서 자연스럽게 발생한다. 이 경우 선택은 로컬 다양체에 정렬된 표본을 우선 유지하면서 전역적으로 관련된 꼬리 모드를 제거해, 붕괴를 방지하는 안전장치가 아닌 붕괴를 촉진하는 메커니즘으로 전환된다. 연구팀은 이러한 사일로 선택이 붕괴를 가속하고 멱법칙적 다양성 감소를 유발한다는 것을 이론적으로 증명했다.
완화 방안으로 연구팀은 원시 데이터를 공유하지 않고 여러 사일로에서 와서스타인(Wasserstein) 대리 참조를 구성하는 방법을 제안했다. 실험 결과 로컬 참조 선택은 왜곡된 분포에서 실패하는 반면, 협력적 대리 참조는 다양성 저하를 완화했다. 연구팀은 실제 데이터 커버리지가 파편화되거나 부족한 경우 재귀 합성 데이터 파이프라인이 특별한 주의를 요한다고 경고했다.














