클로드 페이블의 사이버 안전장치, 보안 연구자들 사이서 불만 고조

앤트로픽(Anthropic)이 클로드 페이블(Claude Fable)을 공개하자 사이버보안 연구자들 사이에서 안전장치 설계를 둘러싼 비판이 잇따르고 있다. 페이블은 악성코드 개발이나 소프트웨어 침해 등에 악용될 수 있다는 우려를 차단하기 위해 사이버보안 관련 요청을 탐지하는 분류기를 탑재했는데, 이 분류기가 지나치게 넓은 범위를 차단한다는 것이 핵심 불만이다. 같은 이유로 생물무기 관련 요청에도 유사한 제한이 적용된다.

IBM X-Force 소속 보안 연구자 발렌티나 팔미오티는 “블로그 게시물을 읽는 것처럼 사이버 보안과 간접적으로 연관된 요청조차 거부한다”고 지적했다. AI 사이버보안 스타트업 톨모(Tolmo)의 기술 스태프 멤버인 매트 수이체는 보안 코드 작성을 요청하면 소프트웨어 엔지니어링 모범 사례가 아닌 사이버보안 업무로 간주돼 등급이 강등된다고 밝혔다. 분류기가 요청을 차단하면 페이블은 클로드 오퍼스 4.8로 폴백하고 사용자에게 이를 알린다. 분류기가 어휘 기반으로 작동하는 것으로 보인다는 설명도 덧붙였다. 또 다른 연구자는 단순한 코드 리뷰 요청도 분류기를 촉발한다고 불만을 토로했다.

앤트로픽은 사이버보안 전문가들이 사이버 검증 프로그램(Cyber Verification Program)에 신청해 승인을 받으면 제한을 완화받을 수 있도록 했으며, 오픈AI(OpenAI)도 신뢰 접근 프로그램(Trusted Access for Cyber)이라는 유사한 제도를 운영 중이다. 수이체는 현 시점에서 과도한 차단이 불충분한 차단보다는 낫다면서도, 앤트로픽과 프런티어 모델 기업들이 차세대 사이버보안 기업들과 협력을 심화할수록 안전장치가 점진적으로 개선될 것이라고 전망했다.