VLM 좌표 목록 파인튜닝, 반복 출력 제어 가능한 간섭 표면 형성

시각-언어 모델(VLM)에 밀집 좌표 목록 파인튜닝을 적용하면 시각 기초(visual grounding) 성능이 크게 향상되지만, 구조화 출력의 반복 생성이라는 새로운 문제가 함께 나타난다는 연구 결과가 나왔다. arXiv에 2026년 6월 12일 공개된 논문에 따르면, 연구진은 이 현상을 생성 제어의 관점에서 분석해 측정과 통제가 가능한 간섭 표면(interference surface)으로 규정했다.

연구진은 Gemma 4 12B 모델에 q/k/v/o 전체 레이어를 대상으로 한 고용량 LoRA(저순위 적응)를 적용한 결과, 클래스 인식 F1@0.3 점수가 0.007에서 0.448로 상승하는 시각 기초 성능 향상을 확인했다. 그러나 동시에 반복 꼬리 압박(repeated-tail pressure)이 나타나 중복률이 0.080, 최대 반복 횟수가 23에 달했다. q/v 레이어만 대상으로 한 순위(rank) 4~64 구간의 스윕 실험에서는 최대 반복 횟수가 21~22 수준으로 일관되게 유지돼, 반복 현상이 모델 용량보다는 구조적 특성에서 비롯된다는 점이 드러났다. 이어 객체 수준 반복 중지(object-level repeat-stop) 기법을 적용하자 중복률이 0.000으로, 최대 반복 횟수가 1로 감소했으며, F1 점수는 0.494에서 0.490으로 소폭 하락에 그쳐 성능 유지와 반복 통제를 동시에 달성했다.

연구진은 이 현상이 바운딩 박스 좌표 객체 목록이라는 특정 구조 축에 국한된다는 점도 규명했다. 비좌표 밀집 출력과 공간·계수 관련 JSON 구조에서는 고용량 어댑터를 사용해도 반복 문제가 나타나지 않았다. Qwen3-VL-8B 모델에서도 F1@0.3 0.318, 중복률 0.000이라는 깨끗한 통제 결과가 재현됐으며, COCO 2017 데이터셋에서도 동일한 패턴이 확인됐다. 이는 해당 간섭 표면이 특정 모델이나 데이터에 한정되지 않고 여러 모델 계열에 걸쳐 나타나는 구조 결합(structure-bound) 현상임을 시사한다.

이번 연구는 VLM의 시각 기초 능력 향상을 위한 좌표 목록 파인튜닝이 예측하지 못한 생성 행동 변화를 수반한다는 점을 체계적으로 보여준다는 데 의미가 있다. 반복 현상 자체는 통제 가능한 것으로 확인됐지만, 파인튜닝 이후 모델의 구조화 출력 직렬화·반복·종료 방식이 변화한다는 점은 실무 배포 단계에서 추가적인 품질 검증이 필요함을 뜻한다. 연구진은 이 간섭 표면을 측정·통제할 수 있다는 점에서 향후 다른 구조화 출력 도메인에서도 유사한 분석 방법론이 적용될 수 있을 것으로 봤다.