PaddleOCR 3.5, 트랜스포머 백엔드 지원으로 AI 스택 통합 간소화

바이두의 오픈소스 OCR 프레임워크 PaddleOCR이 버전 3.5 업데이트를 통해 허깅페이스 트랜스포머(Transformers) 라이브러리를 추론 백엔드로 지원하기 시작했다. 이번 업데이트의 핵심은 기존 PaddlePaddle 전용 백엔드에 더해 `engine=”transformers”` 파라미터 하나로 PyTorch 기반 추론 경로를 선택할 수 있게 됐다는 점이다. 이에 따라 트랜스포머 기반 AI 스택을 사용하는 개발자가 PaddleOCR의 OCR과 문서 파싱 기능을 기존 파이프라인에 더 쉽게 통합할 수 있게 됐다.

트랜스포머 백엔드에서 지원하는 기능은 OCR 모델 PP-OCRv5와 문서 파싱 모델 PaddleOCR-VL 1.5 두 가지다. CLI와 Python API 모두에서 단순히 백엔드 옵션을 지정하는 방식으로 사용할 수 있으며, `engine_config`를 통해 데이터 타입(bfloat16 등), 어텐션 구현(sdpa 등), 디바이스 설정을 세밀하게 조정할 수 있다. 단, 최대 처리량이 우선순위인 경우에는 기존 정적 추론 백엔드(paddle_static) 사용이 권장된다. 이번 업데이트는 허깅페이스 허브의 모델 탐색·배포와 PyTorch 기반 서비스와의 연동이 필요한 환경을 주요 대상으로 한다.

Colorful lines of code on a computer screen showcasing programming and technology focus. — 사진: Nemuel Sereti / Pexels

RAG와 문서 AI, 에이전틱 워크플로우가 확산되면서 LLM(대규모 언어 모델) 앞단의 문서 전처리 품질이 중요해지고 있다. OCR과 문서 파싱은 비정형 문서를 모델이 처리할 수 있는 형태로 변환하는 핵심 단계다. PaddleOCR은 복잡한 레이아웃과 다국어 문서 처리에서 강점을 인정받아 왔으나, PaddlePaddle 전용 의존성이 PyTorch 기반 팀의 도입 장벽으로 작용했다. 트랜스포머 백엔드 지원은 이 장벽을 낮추는 조치로 평가된다.

PaddleOCR 3.5는 설치 시 PyTorch와 Transformers 5.4.0 이상, paddleocr 3.5.0, paddlex 3.5.2를 함께 설치해야 한다. 허깅페이스 스페이스에서 라이브 데모를 통해 직접 기능을 확인할 수 있으며, 소스 코드와 모델은 깃허브 및 허깅페이스 허브에서 공개돼 있다.