Datalab, PDF 구조화 추출 특화 9B 오픈웨이트 모델 lift 공개

AI 문서 처리 도구 전문 기업 데이터랩(Datalab)이 PDF와 이미지에서 JSON 형태의 구조화 데이터를 추출하는 데 특화된 9B 파라미터 규모의 오픈웨이트 비전 모델 lift를 공개했다. 사용자가 JSON 스키마를 입력하면 모델이 해당 스키마 형식에 맞는 JSON 객체를 그대로 반환하는 방식으로, 청구서 처리나 계약서 검토 등 문서 자동화 파이프라인에 바로 투입할 수 있도록 설계됐다.

lift의 핵심 설계 원리는 스키마 제약 디코딩(schema-constrained decoding)이다. 모델이 텍스트를 생성하는 각 단계에서 스키마 규칙에 위배되는 토큰을 원천 차단해, 출력 결과가 항상 지정된 스키마 구조와 일치하도록 강제한다. 이 방식은 구조적 유효성은 보장하지만 값의 정확성까지 담보하지는 않는다. 또한 모델은 문서에 해당 필드가 실제로 없을 경우 값을 임의로 채우지 않고 null을 반환하는 기권(abstention) 기능을 기본 탑재해, 침묵하는 오류를 줄이도록 훈련됐다. 다중 페이지 문서를 단일 패스로 처리하며, 페이지에 걸쳐 이어지는 값도 이어 붙일 수 있다. 추론은 vLLM 서버 또는 HuggingFace 백엔드를 통해 로컬로 실행할 수 있다.

데이터랩이 225개 문서를 대상으로 진행한 자체 벤치마크에서 lift는 필드 단위 정확도 90.2%, 문서당 중앙값 처리 속도 9.5초를 기록했다. 자가 호스팅 가능한 오픈 모델 가운데 최고 필드 정확도이며, Gemini Flash 3.5 대비 약 3배 빠른 속도다. 다만 문서 내 모든 필드가 정확해야 점수를 얻는 전체 문서 정확도는 20.9%로, 데이터랩 자체 호스팅 API(44.4%)와 Gemini Flash 3.5(40.0%)에는 미치지 못한다. 긴 문서를 단일 패스로 처리하는 구조적 한계가 이 격차의 주요 원인이다. 해당 벤치마크는 데이터랩 자체 기준이므로 제3자 검증 결과가 아님을 감안해야 한다.

코드는 Apache 2.0 라이선스로 공개되며, 모델 가중치는 수정된 OpenRAIL-M 라이선스를 적용한다. 연구·개인 사용과 매출·펀딩이 500만 달러 미만인 스타트업은 무료로 이용할 수 있으나, 데이터랩의 호스팅 API와 경쟁하는 상업적 용도에는 별도 계약이 필요하다. lift는 `pip install lift-pdf` 명령으로 설치할 수 있으며, CLI와 Python API를 모두 제공한다. 데이터랩은 이미 오픈소스 OCR 도구인 chandra, marker, surya를 운영 중으로, lift는 이 생태계를 스키마 기반 필드 추출 영역으로 확장한 첫 모델이다.