메타와 구글 등 주요 빅테크 기업이 공개한 오픈소스 인공지능(AI) 모델의 안전장치를 손쉽게 제거할 수 있는 도구들이 온라인에서 빠르게 퍼져 나가며, 생물무기·악성코드 관련 답변까지 생성하는 변형 AI 모델이 대량 유통되고 있는 것으로 나타났다. 한 AI 안전성 단체의 테스트에 따르면, 안전장치가 제거된 구글의 오픈소스 모델은 유해 가스 살포 방법이나 신용카드 정보를 탈취하는 악성코드 작성법 등을 생성했다.
한 매체는 깃허브에서 공개된 도구를 사용해 메타의 오픈소스 모델의 안전장치를 10분도 안 되는 시간 안에 제거하는 데 성공했다고 전했다. 별도의 고성능 장비나 전문 지식 없이도 가능했다는 설명이다. 안전장치가 제거된 모델은 원래 시스템이 거부하던 위험한 질문에도 응답했다. 한 대학 교수는 과거에는 안전장치를 제거하려면 전문성과 지속적 노력이 필요했지만, 이제는 일반 사용자도 쉽게 할 수 있는 수준이 됐다고 지적했다.

문제는 최첨단 AI 모델의 능력이 빠르게 향상하면서 위험이 더 심각해지고 있다는 점이다. AI 기업들은 그동안 모델 오남용을 막기 위해 수백만 달러를 투입해 안전 가드레일을 구축해 왔다. 그러나 ‘소멸(abliteration)’로 알려진 기법은 이러한 안전장치를 빠르게 제거할 수 있으며, 특히 누구나 다운로드하고 수정할 수 있는 오픈소스 모델에서 위협이 커지고 있다는 지적이다.
오픈AI의 챗GPT나 앤트로픽의 클로드 같은 비공개 모델은 핵심 코드에 외부 접근이 불가능해 안전장치 제거가 쉽지 않다. 다만 오픈소스 AI는 최근 최첨단 폐쇄형 모델과의 성능 격차가 많이 줄어든 상태다. 한 도구 개발자는 자신의 도구를 통해 3500개 이상의 ‘검열 해제’ 모델이 제작됐고 다운로드 수는 1300만 건에 달한다며, 업계의 가드레일이 얼마나 취약한지 보여주기 위해 이를 공개했다고 밝혔다.
AI 업계도 대응책 마련에 고심하고 있다. 오픈AI는 위험한 데이터를 제거한 데이터셋으로 학습하는 방식을 도입했지만, 전문가들은 단순히 유해 데이터를 삭제하는 것만으로는 충분하지 않을 수 있다고 본다. 한 교수는 위험한 데이터를 제거하면 모델이 오히려 악의적 사용을 인지하지 못하는 ‘순진한’ 상태가 될 수도 있다고 지적했다. 오픈소스 AI의 개방성과 안전성을 어떻게 양립시킬지는 한국을 포함한 글로벌 AI 거버넌스의 핵심 과제로 떠오르고 있다.


