DPO, 챗봇 정렬 너머 OCR 모델 오류 59% 줄였다

직접 선호도 최적화(DPO, Direct Preference Optimization)가 챗봇 정렬 이외의 구조화된 생성 작업에서도 효과적임을 보여주는 실증 사례가 나왔다. 허깅페이스(Hugging Face)에 공개된 Dharma AI 블로그 포스트에 따르면, 브라질 포르투갈어 문서 OCR 모델을 개발하면서 SFT(지도 미세 조정) 이후 단계에 DPO를 적용한 결과, 테스트한 5개 모델 계열 모두에서 텍스트 반복 루프 오류(text degeneration)가 평균 59.4% 감소했다. 최고 감소율은 87.6%에 달했다.

연구팀은 SFT가 범용 모델을 과제 특화 모델에 가깝게 만드는 데 효과적이지만, 토큰 단위 손실 함수의 특성상 완성본 수준의 반복 오류를 직접 제재하지 못하는 구조적 한계가 있다고 설명한다. 이에 모델 자체가 SFT 이후 생성한 반복 오류 출력물을 필터링하지 않고 오히려 DPO의 거절(rejected) 예시로 활용하는 역발상 설계를 채택했다. 총 23,726개 학습 문서에서 SFT 모델이 생성한 복수 응답을 자동 LLM 심사자로 채점해 선호-거절 쌍을 구성했으며, 반복 오류 출력이 가장 명확한 부정 신호라는 판단에 따라 이를 적극적으로 학습 신호로 전환했다.

Wooden letter tiles spelling "DEEPSEEK" with "CHINA" and "USA" on a wooden table. — 사진: Markus Winkler / Pexels

실험 결과는 5개 모델 계열 전반에서 일관된 방향성을 보였다. 한 모델은 SFT 단계에서 오히려 반복 오류 비율이 높아졌다가 DPO 이후 줄어드는 패턴을 보이기도 했는데, 연구팀은 이를 SFT가 과제 수행 능력과 반복 오류 취약성을 동시에 높일 수 있다는 증거로 해석했다. 이 두 특성이 별개라는 점, 즉 SFT로는 타깃하기 어려운 실패 패턴을 DPO가 보완할 수 있다는 점이 핵심 논지다.

연구팀은 이 방법론이 다른 구조화된 생성 과제에도 적용될 수 있다고 주장한다. 세 가지 조건—실패 모드의 범주적 식별 가능성, 자동 채점 가능성, 충분한 데이터 볼륨—이 충족되는 영역에서는 도메인과 무관하게 유사한 접근이 유효하다는 설명이다. OCR이 특별해서가 아니라 실패 양상이 명확해서 효과를 보였다는 이 시각은, 훈련 단계 설계를 재검토하려는 ML 엔지니어들에게 실용적인 참고점이 될 수 있다.