과학기술정보통신부와 정보통신기획평가원(IITP)이 2027년부터 2034년까지 8년간 총 3000억 원 규모의 ‘AI 안전신뢰기술개발’ 신규 사업을 기획 중이다. IITP는 이를 위해 ‘AI 안전신뢰 대규모 R&D사업 사전기획 연구용역’을 공고했다. 이 사업은 대형언어모델(LLM) 등 AI 모델의 안전성을 국가 차원에서 평가하고, 환각·오남용·악성 활용을 차단하는 원천기술을 확보하는 것을 목표로 한다.
정부가 AI 안전 기술 확보에 나선 배경에는 현행 글로벌 LLM 안전 검증 체계의 공백이 있다. 챗GPT, 클로드, 제미나이 등 주요 AI 모델은 각 기업이 자체적으로 안전성을 검증하고 있을 뿐, 국가 차원의 시험·인증 체계는 충분히 구축돼 있지 않다. IITP 관계자는 사용자가 우회 표현으로 유해 정보를 요청할 경우 일부 모델이 이를 제공하는 사례가 있다며, 모델별 안전성을 평가할 표준 체계가 필요하다고 설명했다.
과기정통부는 자체 R&D와 함께 글로벌 AI 기업과의 협력도 동시에 추진하고 있다. 6월 18일 앤트로픽과 AI 안전성 확보 및 사이버보안 분야 업무협약을 체결했다. 양측은 AI가 사이버 공격과 방어에 미치는 영향을 분석하고, 한국어 맥락에서의 AI 모델 안전성과 오남용 위험을 평가하기로 했다. 자율형 AI 에이전트의 레드팀 평가, AI 취약점 발굴, 사이버 위협 정보 공유도 협력 범위에 포함됐다. 그보다 하루 앞선 17일에는 AI안전연구소가 오픈AI와 업무협약을 맺고 고위험 분야별 안전 평가 방법론과 벤치마크 모범사례를 공유하기로 합의했다.
전문가들은 AI 안전이 국가 안보 차원의 문제로 부상한 만큼 국내 고유의 평가 체계 구축이 시급하다고 강조한다. 한국어와 국내 사회·문화 맥락을 반영한 안전성 평가 기준, 오남용 차단 방어기술, 그리고 모델의 판단 근거를 설명·검증할 수 있는 기술을 함께 개발해야 한다는 지적이다. AI 안전성 평가 인프라는 특정 기업이 아닌 공공 인프라로 접근해야 한다는 시각도 제기되고 있다.














