공공기관 문서에서 데이터 추출, 오픈소스 모델 한계 실측

공공기관 및 국제기구가 발간하는 보고서에서 표와 그림을 자동으로 식별·추출하는 작업을 평가하는 새로운 벤치마크 데이터셋과 평가 프레임워크가 공개됐다. 이 연구는 인도주의 보고서, 세계은행 정책연구 작업문서, 사업평가 문서 등 기관 운영 문서에 포함된 분석 정보를 재활용 가능한 형태로 추출하는 과제를 ‘데이터 스냅샷 추출(data snapshot extraction)’로 정의하고, 이를 벤치마킹하는 최초의 체계적 평가 틀을 제시했다.

연구팀은 이 데이터셋을 활용해 다수의 오픈소스 레이아웃 감지 모델을 평가하고 탐지 성능과 공간 추출 품질을 비교 분석했다. 결과는 기존 학술 벤치마크에서 높은 성능을 기록한 모델들도 기관 운영 문서에는 충분히 일반화되지 못한다는 것을 보여줬다. 주요 실패 패턴으로는 분석적 콘텐츠와 비분석적 콘텐츠 간의 혼동, 복합 분석 결과물의 단편화, 해석에 필요한 맥락 정보의 불완전한 추출 등이 공통적으로 나타났다.

Close-up of a person reviewing mortgage history and trends document. — 사진: RDNE Stock project / Pexels

이번 연구는 범용 문서 레이아웃 분석과 운영 현장에서 실질적으로 유용한 데이터 추출 사이에 아직 좁혀지지 않은 간극이 존재함을 실증했다는 점에서 의미가 있다. 기존 접근은 그림과 표를 의미적으로 중요한 분석 산출물이 아니라 단순히 동등하게 취급되는 문서 객체로 다뤄왔는데, 연구팀은 이런 접근이 기관 문서에서 재활용 가능한 분석 정보를 정확히 추출하는 데 한계를 보인다는 점에 주목했다. 현실 기관 문서에는 학술 논문과 달리 복합 도표, 비정형 레이아웃, 맥락 의존적 표현이 많아 범용 모델의 일반화가 쉽지 않다는 것이다. 기존 학술 벤치마크에서 좋은 성적을 거둔 모델이라도 실제 운영 문서로 옮겨가면 성능이 떨어진다는 실측 결과는 도입을 검토하는 기관 입장에서 중요한 참고점이 된다. 연구팀은 원본 PDF, 주석 데이터셋, 메타데이터, 소스 코드를 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 공개해 후속 연구를 지원할 계획이다.