타깃 광고 시스템에서 사용자의 광고 상호작용 데이터가 민감 속성을 추론하는 신호로 활용될 수 있다는 연구가 arXiv에 공개됐다. 광고주는 특정 청중을 선정해 광고를 노출하고, 이때 발생한 상호작용이 해당 캠페인과 연결된 상태로 노출될 경우 광고주가 집계 통계가 아닌 사용자 단위 관측치를 받을 수 있다. 연구팀은 이 채널을 속성 추론을 위한 잡음 있는 오라클로 모델링했으며, 타깃팅 조건과 노출, 상호작용, 공개 범위 사이의 경계를 형식화해 분석했다.
연구팀은 공개 데이터로 보정한 합성 인구 집단을 이용해 재현 가능한 벤치마크를 구축했다. 알려진 민감 레이블을 가진 집단에 대해 캠페인 시뮬레이터를 실행하고, 베이즈, 지도 학습, 양성 및 레이블 미지정(PU learning), 적응형 공격 등 다양한 추론 방법을 평가했다. 최종 평가는 4가지 주제 변형, 7가지 시뮬레이터 시드, 2가지 상호작용 설정을 조합해 수행됐다. 동일 사용자에 대해 반복 캠페인을 노출했을 때 160회 캠페인 지점에서 베이즈 공격과 지도 학습 공격 모두 주요 설정에서 AUC(수신자 조작 특성 곡선 아래 면적) 약 0.64, 상호작용이 높은 설정에서는 약 0.65를 기록했다.
공개 정책이 가장 강력한 방어 수단으로 확인됐다. 집계 보고로 전환하면 사용자 단위 오라클 입력이 제거되어 이 채널의 추론 신호가 사라지며, 유형 필터링과 무작위화 공개도 신호를 줄이는 데 효과적이었다. 이 연구는 모델과 벤치마크, 방어 평가 방법론을 함께 제공하며 코드도 공개됐다. 개인 맞춤형 광고 생태계가 고도화될수록 광고 상호작용 데이터의 개인정보 위험이 심화될 수 있으며, 한국에서도 개인정보보호법 테두리 안에서 광고 데이터 처리 방식에 대한 기술적·제도적 대응이 필요하다는 시사점을 제공한다.














