LLM 에이전트 3종이 코드 60만 줄 작성, 캐글 대회 1위 달성

2026년 3월 캐글(Kaggle) 플레이그라운드 경진대회에서 LLM(대규모 언어 모델) 에이전트 3종을 활용한 팀이 1위를 차지했다. NVIDIA 개발자 블로그에 공개된 사례에 따르면, 이 과정에서 에이전트들은 60만 줄 이상의 코드를 작성하고 850회의 실험을 수행했다. 대회 과제는 통신사 고객 이탈(churn)을 AUC(곡선 하 면적) 기준으로 가장 정확하게 예측하는 것이었으며, 최종 솔루션은 850개 모델 중 선별된 150개를 4단계로 쌓은 스택 앙상블 구조였다. 실험에 사용된 LLM 에이전트는 GPT-5.4 Pro, Gemini 3.1 Pro, Claude Opus 4.6 세 가지였으며, 사람이 전략적 방향을 제시하는 인-더-루프(human-in-the-loop) 방식으로 운영됐다.

에이전트 기반 워크플로는 네 단계로 진행됐다. 먼저 탐색적 데이터 분석(EDA)으로 데이터 구조를 파악한 뒤 다양한 기준 모델(baseline)을 구축했다. 이후 특징 공학(feature engineering)과 모델 튜닝을 반복하며 성능을 높이고, 마지막에 힐 클라이밍과 스태킹으로 모든 모델을 결합했다. LLM 에이전트는 각 단계에서 코드 작성과 아이디어 생성을 맡았으며, GPU 가속 라이브러리인 NVIDIA cuDF, cuML, XGBoost, PyTorch가 실험 실행 속도를 높이는 데 쓰였다. 에이전트에게 논문 검색, 포럼 코드 분석, EDA 기반 아이디어 생성을 직접 요청하는 방식도 활용됐다.

이 사례는 현대 머신러닝 경진대회에서 코드 생성 속도와 실험 반복 빈도가 성과를 가르는 핵심 요소가 됐음을 보여준다. 과거 가장 빠른 실험을 가능하게 했던 GPU 기반 실행 속도에 이어, LLM 에이전트가 아이디어 생성과 코드 작성 속도를 함께 끌어올리면서 두 가지 병목이 동시에 해소되는 양상이다. 이 접근 방식은 캐글 같은 경진대회뿐 아니라 표 형태 데이터(tabular data) 예측 문제 전반에 적용할 수 있으며, 개인 연구자부터 기업 데이터 팀까지 활용 가능한 실전 템플릿으로 주목받고 있다.