실세계 데이터셋에 자연실험 존재…인과 추론으로 모델 성능 향상 가능

실세계 데이터셋에 자연실험(natural experiment)이 내재돼 있으며, 이를 활용한 인과 추론이 예측 모델 성능 향상으로 이어질 수 있다는 연구가 발표됐다. 2026년 6월 2일 arXiv에 제출된 논문에서 연구팀은 인과 특성 선택(causal feature selection)을 통해 데이터셋 안의 자연실험을 탐지하고 이를 모델 학습에 활용하는 방법론을 제시했다.

자연실험이란 무작위 통제 실험처럼 의도적으로 설계된 개입이 아니라, 특정 개인이나 집단에만 영향을 미치는 자연 발생적 사건을 의미한다. 연구팀은 코로나19 팬데믹을 대표적 사례로 제시했는데, 감염자 집단에만 바이러스가 개입한 것으로 볼 수 있어 암묵적인 자연실험 구조를 갖는다고 설명했다. 연구팀은 인과 발견(causal discovery) 기법으로 데이터의 내재적 인과 구조를 복원하고, 이를 바탕으로 특성을 선택했을 때 해당 데이터를 관찰 데이터가 아닌 개입 데이터로 처리하면 성능이 향상된다는 가설을 수립했다.

Close-up of business charts with magnifying glass highlighting data insights. — 사진: RDNE Stock project / Pexels

이 가설은 자연실험 유무를 제어한 합성 데이터셋 시뮬레이션으로 먼저 검증됐다. 이후 다수의 실제 데이터셋에 적용한 결과, 관찰 방식보다 개입 방식으로 처리했을 때 예측 정확도가 유의미하게 향상되는 것을 확인했다. 연구팀은 이 결과가 실세계 데이터에 자연실험이 실재함을 시사하며, 인과 추론 기반 접근이 모델 일반화 성능을 높이는 데 유효함을 보여준다고 밝혔다.

이번 연구는 AI 모델 학습 시 데이터의 통계적 상관관계뿐 아니라 인과 구조를 함께 고려해야 한다는 주장을 실증적으로 뒷받침한다. 연구팀은 해당 탐색이 제한적 범위 안에서의 초기 연구임을 밝히면서 향후 더 다양한 데이터셋과 조건에서 검증이 필요하다고 덧붙였다.