합성 데이터 생성, 집단 간 불균등 영향 발생 원인과 대응 전략 연구

합성 데이터 생성(SDG, Synthetic Data Generation) 방법이 특정 인구 집단에 불균등한 영향을 미칠 수 있다는 공정성 문제를 다룬 연구가 발표됐다. 연구팀은 생성된 합성 데이터의 유용성이 민감 집단 간에 동일하게 유지되는지를 측정하는 불균등 영향(disparate impact) 개념을 합성 데이터 생성 맥락에서 재검토했다. 기존 공정 SDG 연구가 관측된 분포의 편향을 교정하는 방향으로 접근했다면, 이 연구는 합성 분포가 실제 데이터 분포와 얼마나 일치하는지를 기준으로 삼는다는 점에서 차별화된다.

연구에 따르면 합성 데이터 생성이 집단 간 불균등한 결과를 낳는 원인은 크게 세 가지다. 첫째, SDG 방법의 표현력이 데이터 분포의 복잡성에 비해 부족할 때 집단에 따라 근사 오류가 다르게 나타난다. 둘째, 집단 크기의 차이에 따른 표본 오류가 소수 집단에서 더 크게 발생한다. 셋째, 차등 프라이버시(differential privacy) 메커니즘이 유도하는 추정 오류가 집단에 따라 불균등하게 분포된다. 연구팀은 확률적 그래픽 모델(probabilistic graphical models)에 기반한 SDG 방법을 중심으로 인공 데이터와 실제 데이터 모두에서 불균등 영향이 발생하는 구체적 사례를 제시했다.

이에 대한 대응 전략으로 연구팀은 집단별 SDG 모델을 개별 학습하는 방식을 도입했다. 전체 데이터를 단일 모델로 학습하는 대신 민감 속성으로 구분된 집단마다 별도의 SDG 모델을 학습함으로써 전체 유용성과 집단 간 유용성 균형을 동시에 개선할 수 있음을 실험으로 보였다. 합성 데이터는 프라이버시 보호, 데이터 부족 보완, 머신러닝 학습 데이터 증강 등의 목적으로 활용이 확대되고 있다. 그러나 생성된 합성 데이터가 특정 집단에 대해 더 낮은 품질을 가질 경우, 이를 활용해 학습된 모델 역시 해당 집단에 불리한 방향으로 편향될 위험이 있다. 이번 연구는 합성 데이터의 공정성 평가와 개선에서 집단별 접근이 필요하다는 점을 실증적으로 뒷받침한다.