공공데이터 마크다운 전환 시작됐지만, AI 에이전트 친화 환경 갈 길 멀어

AI 에이전틱(Agentic) 시대에 맞춰 정부 공공데이터를 AI 친화 형식으로 전환하려는 움직임이 본격화됐지만, 실질적인 에이전트 활용 환경을 갖추기까지는 아직 풀어야 할 과제가 산적해 있다. 과학기술정보통신부와 국가AI전략위원회가 중심이 돼 기존 한글문서(.hwp)·PDF 형식의 공공데이터를 마크다운(.md) 형식으로 추가 공개하는 작업이 진행 중이지만, 업계와 전문가들은 포맷 변환 이상의 전방위적 개선이 필요하다고 입을 모은다.

현재 공공데이터의 가장 큰 걸림돌은 파일 형식의 비표준화와 실시간성 부재다. 기관마다 다른 형식으로 데이터를 제공하고 표 셀 병합 등 복잡한 구조가 많아, 기업들은 AI 학습에 투입하기 위해 별도 파서(Parser, 데이터 해석 프로그램)를 개발하고 사람이 변환 결과를 일일이 검수하는 과정을 반복해야 한다. 마크다운 문서는 텍스트 구조가 일관돼 추가 가공을 거치지 않고도 모델 학습 입력으로 곧장 투입할 수 있다는 이점이 거론된다. 다만 기관마다 도입 속도가 제각각이어서 범정부 차원의 표준으로 자리 잡으려면 상당한 시간이 걸릴 전망이다. 업계에서는 영국이 ‘거브스픽(Govspeak)’이라는 마크다운 기반 전용 문서 포맷을 정부 문서 작성 단계부터 의무 적용해 AI 학습 즉시 활용을 가능케 한 사례를 벤치마킹해야 한다는 주장도 나온다.

데이터 접근 체계 문제도 시급한 과제다. 현재 공공데이터포털에서 제공되는 집합 데이터 대부분은 1~2개월 지연 공개되어 실시간 비즈니스 서비스에 활용하기 어렵고, AI 에이전트가 직접 데이터를 가져가는 자동화 환경도 갖춰지지 않았다. 업계 관계자들은 AI 에이전트가 외부 데이터·시스템과 표준화된 방식으로 연결할 수 있도록 하는 통신 규격인 MCP(모델 컨텍스트 프로토콜)를 공공데이터 접근에도 필수 적용해야 한다고 강조했다. 다만 MCP 환경 확산에 따른 보안 위협을 막기 위해 정부 차원의 공인·인증 체계 구축이 선행돼야 한다는 조건도 함께 제시됐다.

라이선스 문제 역시 해결이 시급하다. 국내 공공데이터에는 제1유형부터 제4유형까지 다른 이용 조건의 ‘공공누리’ 라이선스가 부착돼 있어, 기업이 대량 데이터를 활용할 때마다 사용 가능 여부를 건별로 확인해야 하는 부담이 크다. 전문가들은 최소한 AI 학습 목적에 한해 공공데이터를 일괄 자유 이용할 수 있도록 예외 조항을 신설할 것을 촉구하고 있다. 정부도 이 문제를 인식해 최근 ‘데이터 관계장관회의’를 통해 공공누리 AI 유형 신설과 공정이용 가이드라인 마련 계획을 밝힌 바 있다. 그러나 전문가들은 공공기관의 데이터 전문 인력 부족, 순환보직, 낮은 데이터 직무 위상 등 체계적 문제를 먼저 해결하지 않으면 제도 개선만으로는 실질적 효과를 내기 어렵다고 지적했다.