LLM 인컨텍스트 학습으로 여론조사 결측값 대체 정확도 높인다

대규모 언어 모델(LLM)의 인컨텍스트 학습(ICL, in-context learning)을 여론조사 데이터의 결측값 대체에 활용하는 방법이 제안됐다. 연구진은 완전히 응답되지 않은 항목보다 일부만 응답된 경우가 실제 조사에서 훨씬 흔하다는 점에 착안해, LLM이 기존 통계 방법보다 이러한 부분 무응답 문제를 더 잘 다룰 수 있는지 체계적으로 평가했다.

평가는 미국 트렌드 패널(American Trends Panel) 15개 조사 회차에 걸친 150개 의견 변수를 대상으로 세 가지 결측 메커니즘, 즉 완전 무작위 결측(MCAR), 무작위 결측(MAR), 비무작위 결측(MNAR)에서 ICL 설계 선택지를 비교하는 방식으로 진행됐다. 비무작위 결측 상황에서 성능 향상 폭이 가장 컸으며, 최고 성능을 낸 구성은 100개의 인컨텍스트 예시를 사용하는 조건이었다. 이 구성은 기존 통계 방법인 MICE PMM 대비 모든 결측 메커니즘에서 절대 오차를 일관되게 줄였고, 95% 수준에 근접하는 명목 적중률을 달성하면서도 신뢰 구간 폭을 2~5배 좁혔다.

a person holding a piece of paper over a laptop — 사진: Jakub Żerdzicki / Unsplash

Business meeting featuring laptops, notes, and teamwork around a white table. — 사진: Artem Podrez / Pexels

연구진은 LLM이 여론조사 개별 응답을 시뮬레이션하는 도구로 폭넓게 평가돼 왔지만, 결측값 대체 문제는 예측과 근본적으로 다른 평가 기준을 갖는다는 점을 강조했다. 이번 연구는 그 구분을 명확히 하면서 결측값 대체에 특화된 평가 체계를 적용했다는 점에서 방법론적 기여가 있다. 연구진은 로컬 및 상용 LLM 모두에서 손쉽게 사용할 수 있도록 사이킷런(scikit-learn) 스타일 API를 갖춘 파이썬 패키지를 공개한다고 밝혔다.

사회과학 연구에서 결측 데이터 처리는 분석 결과의 신뢰성에 직결되는 문제다. LLM이 보유한 광범위한 사회 문화적 지식이 비무작위 결측처럼 패턴이 복잡한 상황에서 특히 유리하게 작용한다는 이번 발견은, 통계 방법과 LLM을 결합한 사회과학 데이터 분석 방법론의 발전 가능성을 넓히는 결과로 해석된다.