MIT와 MIT-IBM 컴퓨팅 연구소 연구팀이 2026년 6월 3일 VLM(비전-언어 모델)의 차트 해석 능력을 향상시키는 대규모 훈련 데이터셋 ChartNet을 공개했다. 이 데이터셋은 100만 장 이상의 다양한 차트 이미지와 함께 각 차트를 생성한 코드, 텍스트 설명, 수치 데이터 테이블, 질의응답 쌍을 포함해 시각·언어·수치 이해를 통합 학습할 수 있도록 설계됐다.
연구팀은 새로운 합성 데이터 생성 파이프라인을 활용해 단일 차트 이미지를 수백 가지 변형으로 증강했다. 차트 유형, 색상, 주제, 데이터 값 등을 자동으로 바꿔가며 다양성을 확보했고, 자동화된 품질 검증 과정으로 생성된 데이터의 정확성을 보장했다. 전문가가 직접 주석을 단 데이터셋도 별도로 포함돼 실무 적용 시 추가 파인튜닝의 기반으로 활용 가능하다.

연구팀이 ChartNet으로 IBM Granite Vision 시리즈를 포함한 여러 오픈소스 모델을 훈련한 결과, 규모가 수십 배 큰 상용 모델을 차트 재구성·데이터 추출·요약·질의응답 등 모든 평가 항목에서 일관되게 앞섰다. 수석 저자인 MIT 전기공학·컴퓨터과학(EECS) 대학원생 조바나 콘디치(Jovana Kondic)는 기존 학습 데이터셋이 차트에 대한 단순 질의응답에만 집중한 반면 ChartNet은 견고한 차트 이해의 모든 측면을 뒷받침하는 데이터를 생성하는 데 주력했다고 설명했다.
금융·의료·과학 연구 등 차트 기반 데이터 분석이 핵심인 분야에서 VLM의 실용 가치가 높아지는 가운데, ChartNet은 고가의 상용 모델 없이도 높은 차트 해석 성능을 구현할 수 있는 경로를 제시한다. 해당 연구는 IEEE 컴퓨터 비전 및 패턴 인식 학술대회(CVPR)에서 발표될 예정이며, 오픈소스로 공개된 데이터셋은 예산이 제한된 소규모 기업도 비즈니스 동향 분석이나 과학 도표 해석 등에 AI를 보다 손쉽게 활용할 수 있도록 돕는다.














