시각 피드백으로 코드 생성 LLM 훈련하는 자기증류 기법 제안

코드로 차트·웹페이지·슬라이드 같은 시각적 결과물을 생성하는 LLM(대규모 언어 모델)의 품질을 높이기 위한 자기증류 정책 최적화 기법이 제안됐다. 2026년 6월 9일 arXiv에 등록된 이 연구는 코드를 실행하는 렌더러가 미분 불가능해 시각적 결함을 사전에 확인할 수 없다는 근본적 문제에 대응한다. 렌더링 결과를 보기 전에 코드를 확정해야 하는 구조적 제약 때문에, 실행은 되지만 요소 겹침·텍스트 잘림·낮은 대비 같은 시각적 결함이 남는 코드가 빈번히 생성된다.

연구팀이 제안한 ‘Visual-SDPO’는 렌더링된 시각 피드백을 가중치를 공유하는 교사 모델의 특권 컨텍스트로 활용하고, 이를 코딩 학생 모델로 증류하는 구조다. 감독 신호를 공간적으로 집중시키기 위해 ‘Visual-Grounded Code Credit Weighting’이라는 기법을 도입해, 탐지된 결함을 해당 요소를 담당하는 코드 구문으로 역추적한 뒤 그 구문에 증류 신호를 강화한다. 시퀀스 수준에서는 GRPO(그룹 상대 정책 최적화) 항을 추가해 실행 가능하고 시각적으로 우수한 롤아웃에 보상을 주고, 실행 실패 샘플도 실행 오류를 교사 모델의 특권 컨텍스트로 전달해 학습 가능하도록 설계했다.

연구팀은 Qwen3-VL-8B-Instruct 백본 하나로 차트·웹/UI·슬라이드 생성 세 가지 태스크에 Visual-SDPO를 적용했다. ChartMimic, Design2Code, AeSlides 벤치마크에서 Visual-SDPO는 제로샷 기준 모델 대비 주요 지표에서 10포인트 이상, GRPO 단독 대비 최소 2.4포인트 향상을 달성했다. 추가적인 추론 비용 없이, 더 적은 학습 단계만으로 이 성능을 얻었다는 점이 실용적 의의로 꼽힌다.

코드 기반 시각 결과물 생성은 데이터 시각화 자동화, 웹 프론트엔드 생성, 프레젠테이션 제작 등 다양한 업무 자동화 시나리오와 직결된다. 시각적 품질 피드백을 훈련 루프 안으로 끌어들이는 이번 접근은 렌더링 결과를 직접 최적화하기 어려운 비미분 환경에서 LLM을 개선하는 일반적 방법론으로도 확장 가능하다는 점에서 주목받는다.