필기 자료 해독에 LLM 투입하는 기록보관소… 수십 년 난제 푼다

컴퓨터가 사람의 손글씨를 안정적으로 읽게 만드는 일은 AI 연구 초기부터 난제였다. 1960년대 연구자들은 기계가 곧 필기 텍스트를 손쉽게 읽어내리라 예측했지만, 실제로는 수십 년간 전문 연구와 상업 산업을 낳은 어려운 문제로 남았다.

딥러닝 발전에 기여해 튜링상을 받은 얀 르쿤은 1980년대에 손으로 쓴 숫자 인식에서 무엇이 가능한지를 보여주는 기념비적 연구를 발표했다. 그러나 그것은 좁고 통제된 환경에서의 성과였고, 실제 기록보관소의 다양한 필기체는 또 다른 문제였다.

이제 그 경계가 움직이고 있다. 범용 AI 모델이 모든 필기 페이지를 완벽히 읽지는 못하지만, 기록보관소가 할 수 있는 일의 범위를 바꿀 만큼은 좋아졌다. 과거에는 고문서 판독 훈련이나 전용 소프트웨어, 몇 주에 걸친 눈싸움이 필요했던 페이지를 이제 몇 초 만에 쓸 만한 전사본으로 만들 수 있다.

아카이브 — 출처: Turn685 / Wikimedia Commons / CC BY-SA 3.0

과거 필기 인식은 특정 글씨체에만 통하는 전용 프로그램에 의존했지만, 범용 AI 모델은 다양한 필체에 한꺼번에 대응한다는 점이 다르다. 물론 오독 가능성이 있어 사람의 검수는 여전히 필요하다. 그럼에도 판독에 드는 시간을 획기적으로 줄여, 사실상 잠들어 있던 기록들을 연구 대상으로 끌어올린다는 점에서 의미가 크다.

보존은 됐지만 사실상 읽을 수 없던 방대한 컬렉션이 LLM 덕분에 활용 가능해지는 것은 인문학 연구의 지형을 바꿀 수 있다. 그동안 필체 해독이라는 장벽 때문에 연구자 손이 닿지 못한 일기·서신·장부 같은 자료가 한꺼번에 열리기 때문이다. 국내에도 해독되지 못한 채 쌓여 있는 고문서·필사 자료가 많은 만큼, 범용 AI를 활용한 대규모 전사는 기록 유산을 되살리는 실용적 도구가 될 전망이다.