과학적 작업 흐름에서 데이터에 정량 모델을 맞추는 과정은 여전히 자동화가 가장 덜 이뤄진 단계 중 하나다. 기존 에이전트 기반 시스템은 언어 모델과 시각-언어 모델(VLM)을 이용해 통계 모델을 반복 제안·개선하지만, 복잡한 모델링 과제에서는 성능이 저하된다. 이 한계를 해결하기 위해 ‘VESTA(Visual Exploration with Statistical Tool Agents)’가 arXiv에 제안됐다.
VESTA는 VLM에 동적으로 성장하는 탐색 도구 집합을 갖추어, 데이터 변환·가설 기반 시각화·강건한 통계 검정을 통해 모델 개선을 유도한다. 기존 시스템이 반복적 비판(iterative critique)에만 의존하는 것과 달리, VESTA는 모델 개선 전과 개선 도중에 데이터를 적극적으로 탐색한다. 이 탐색 과정에서 생성된 진단 도구들은 모델의 문맥에 누적돼 이후 단계에서 재사용될 수 있다.

연구팀은 VESTA를 세 가지 도구 구성(도구 없음, 전문가가 작성한 정적 도구, 모델이 작성한 동적 도구)으로 기존 기준 모델과 비교 평가했다. 이를 위해 분포 피팅(distribution fitting)과 시계열 모델링을 대상으로 하는 새 벤치마크인 DAWN(Dataset for Automated Workflows and Numerical Modeling)을 도입했다. DAWN은 난이도 단계별 과제를 포함하며, 초기 질량 함수(initial mass function) 모델링, 중력파 처프 신호(chirp signal) 분석 등 실제 천문학 과제로 마무리된다. 평가 결과 VESTA의 동적 도구 생성 방식이 기존 에이전트 파이프라인을 앞섰으며, 특히 복잡하고 도메인 특화된 과제에서 가장 큰 성능 향상이 나타났다.
VESTA가 동적으로 생성한 도구는 기존 시각 도구 생성 시스템이 만든 도구보다 함수당 더 많은 진단 범주를 다루고, VLM 비평가가 직접 추론할 수 있는 시각적 출력을 선호하는 경향이 강했다. 이는 과학 데이터 분석 자동화에서 도구 생성과 시각적 피드백을 결합하는 방향이 효과적임을 시사한다. AI 에이전트를 활용한 과학적 발견 자동화가 천문학·생물학·기후 과학 등 다양한 분야로 확장되는 가운데, 전문가 수준의 도구를 스스로 생성하는 VESTA의 접근은 데이터 과학 워크플로의 자동화 범위를 넓힐 것으로 기대된다.


