PaddleOCR PP-OCRv6, 50개 언어 지원·허깅페이스 공개

PaddlePaddle 팀이 문서·스크린샷·산업 라벨·장면 텍스트 등 다양한 실제 환경의 텍스트를 탐지·인식하는 범용 OCR(광학 문자 인식) 모델 패밀리 PP-OCRv6을 허깅페이스(Hugging Face)에 공개했다. 이번 릴리스는 파라미터 수 기준으로 tiny(1.5M), small(7.7M), medium(34.5M) 세 가지 티어로 구성되며, small과 medium 티어는 중국어 간체·번체, 영어, 일본어를 포함한 50개 언어를 단일 모델 패밀리에서 지원한다. 공식 멀티 시나리오 벤치마크에서 PP-OCRv6_medium은 텍스트 탐지 Hmean 86.2%, 인식 정확도 83.2%를 기록했으며, 이는 이전 세대인 PP-OCRv5_server 대비 탐지에서 4.6%p, 인식에서 5.1%p 향상된 수치다.

아키텍처 측면에서 PP-OCRv6은 탐지와 인식 모두에 PPLCNetV4를 통합 백본으로 사용한다. 탐지 모듈에는 다중 스케일 텍스트를 처리하면서도 추론 효율을 유지하는 경량 대형 커널 피처 피라미드 네트워크인 RepLKFPN이 도입됐다. 회전·저해상도·복잡한 배경 등 실제 OCR 입력의 어려운 조건에 대응하기 위한 설계다. 인식 모듈은 지역 문맥 모델링과 글로벌 어텐션을 결합한 EncoderWithLightSVTR을 채택해 다국어 텍스트, 화면 텍스트, 산업용 특수 기호, 밀집 텍스트 인식 성능을 끌어올렸다. tiny·small·medium 세 티어는 서로 독립적인 모델이 아니라 동일한 아키텍처 방향성을 공유하는 하나의 패밀리로 설계됐다.

Man enjoying kayaking on a calm river in Mexico, showcasing adventure and outdoor fun. — 사진: Israel Torres / Pexels

배포 유연성도 이번 릴리스의 주요 특징이다. PP-OCRv6은 PaddleOCR 3.7의 통합 추론 엔진 인터페이스를 통해 Paddle Inference, Transformers 백엔드, ONNX Runtime 세 가지 경로로 운용할 수 있다. 허깅페이스에는 safetensors, Paddle 추론 모델, ONNX 모델 형식이 모두 제공된다. PaddleOCR을 pip으로 설치한 뒤 PaddleOCR() 인스턴스에서 engine 파라미터로 백엔드를 선택하면 동일한 모델 패밀리를 다양한 런타임 환경에서 활용할 수 있다. OCR 결과는 시각화 이미지와 구조화된 JSON 형식으로 저장할 수 있어, 문서 파싱·검색·정보 추출·RAG·에이전트 워크플로우 등 다운스트림 시스템과의 연계도 용이하다.

PP-OCRv6은 허깅페이스 스페이스에서 ONNX Runtime CPU 백엔드를 사용한 온라인 데모로 즉시 체험할 수 있다. 이번 공개는 대형 시각 언어 모델(VLM)이 범용 문자 인식에 활용되는 추세 속에서, 소형 특화 OCR 모델이 낮은 비용과 빠른 추론 속도로 여전히 실용적인 선택지임을 보여주는 사례로 평가된다. PaddlePaddle 팀은 추가 지표·차원·검증 질의를 확장하거나 조직 자체 데이터로 교체해 이 패턴을 적용하는 방향의 확장도 권장하고 있다.