Docling Parse로 PDF 레이아웃 인식 문서 파싱 파이프라인 구축하는 방법

IBM이 공개한 오픈소스 문서 파싱 라이브러리 ‘Docling Parse’를 활용한 레이아웃 인식 PDF 파싱 파이프라인 구축 방법이 공개됐다. 단순한 텍스트 추출을 넘어, 문서 내 각 단어와 문자, 행의 페이지 좌표를 함께 추출해 읽기 순서 재구성, 표 인식, 검색증강생성(RAG) 준비 등 고차원 문서 지능 작업에 활용할 수 있는 접근법을 담았다. Docling Parse는 `DoclingPdfParser` 클래스를 통해 PDF를 불러오고, `iterate_cells` 메서드로 단어(WORD), 문자(CHAR), 행(LINE) 단위로 텍스트 셀과 좌표 정보를 반환한다.

파이프라인은 크게 네 단계로 구성된다. 먼저 테스트용 멀티 페이지 PDF를 생성하고, Docling Parse로 텍스트와 좌표 데이터를 추출한다. 이어서 추출 결과를 JSON과 CSV 파일로 저장하고, 단어의 x·y 좌표를 기반으로 행을 재구성해 레이아웃 인식 텍스트를 복원한다. 좌표 기반 행 재구성 과정에서는 y축 중앙값 기준으로 임계값 내 단어를 같은 행으로 묶고, x축 순서로 정렬해 실제 읽기 순서를 재현한다. 페이지 오버레이 렌더링 기능으로 파싱 품질을 시각적으로 확인할 수도 있다. 또한 병렬 처리를 위한 `DoclingThreadedPdfParser`를 통해 멀티스레드 파싱 성능을 벤치마킹하는 방법도 다룬다.

Docling Parse는 기존 PDF 텍스트 추출 도구와 달리, 콘텐츠와 위치 정보를 함께 제공하는 저수준 파싱 레이어로 작동한다. 2단 레이아웃, 표 구조, 임베디드 이미지, 벡터 도형 등 복잡한 문서 구조를 다루는 데 유용하다. RAG 파이프라인에서 문서를 청크로 분할할 때 레이아웃 구조를 반영하면 문맥 손실을 줄이고 검색 정확도를 높일 수 있어, 법률·금융·의료 문서처럼 형식이 중요한 영역에서 특히 실용적이다. 국내 기업들도 사내 문서 지식 베이스 구축에 PDF 파싱 도구를 적극 활용하는 만큼, 레이아웃 인식 기반의 오픈소스 대안이 주목받을 전망이다.