AI 스킬 보안 검사 데이터셋 ClawHub, 판정 자동화 파이프라인 공개

AI 에이전트 스킬(skill) 파일의 보안 위협을 탐지하기 위한 다중 스캐너 결과 데이터셋 ClawHub 보안 신호(ClawHub Security Signals)가 허깅페이스를 통해 공개됐다. 이 데이터셋은 AI 스킬 파일과 관련 코드에 대해 VirusTotal, 정적 분석(static analysis), SkillSpector 등 세 가지 보안 스캐너가 각각 내린 판정과 점수를 집계한 것으로, 각 스캐너가 악성(malicious)·의심(suspicious)·정상(clean) 여부를 어떻게 다르게 평가하는지 비교할 수 있다.

세 스캐너는 서로 다른 분석 표면을 검사하기 때문에 일치율이 낮게 나타나는 경향이 있다. 자카드(Jaccard) 유사도와 코헨 카파(Cohen’s kappa) 지표로 스캐너 쌍별 일치도를 측정하면 스캐너들이 얼마나 다른 위협을 탐지하는지 수치로 확인할 수 있다. 이처럼 스캐너 간 불일치가 크다는 사실은 단일 스캐너에만 의존하는 보안 체계의 한계를 보여주며, 다중 신호를 통합한 판정 체계의 필요성을 뒷받침한다.

공개된 머신러닝 파이프라인은 스킬 정의 파일(SKILL.md)의 텍스트 내용을 TF-IDF로 벡터화한 특징과 스캐너 관련 수치 특징(SkillSpector 점수, 정적 발견 건수, VirusTotal 악성 카운트 등)을 결합해 최종 ClawScan 판정을 예측한다. 로지스틱 회귀 모델을 클래스 불균형 보정(balanced class weight)과 함께 훈련하고 혼동 행렬과 분류 보고서로 평가하는 전 과정이 구현됐다. 데이터셋은 허깅페이스 OpenClaw/clawhub-security-signals 저장소에서 접근 가능하다.

AI 에이전트와 코딩 어시스턴트 생태계가 확장되면서 외부에서 다운로드하는 스킬·플러그인·도구 파일의 보안 검증이 새로운 과제로 떠오르고 있다. AI 스킬 파일은 자연어로 작성된 지침과 코드 실행 권한이 혼재해 전통적인 악성코드 탐지 방식만으로는 위협을 놓칠 수 있다. ClawHub 데이터셋과 같은 공개 보안 신호 자료는 AI 스킬 생태계의 신뢰성 확보를 위한 연구와 탐지 도구 개발의 기반이 될 것으로 전망된다.