엔비디아, 멀티모달·다국어 AI 안전 모델 '네모트론 3.5' 공개

엔비디아, 멀티모달·다국어 AI 안전 모델 ‘네모트론 3.5’ 공개

엔비디아(NVIDIA)가 사용자 프롬프트·이미지·AI 응답을 단일 컨텍스트 창에서 동시에 판별하는 콘텐츠 안전 모델 네모트론(Nemotron) 3.5 콘텐츠 세이프티를 공개했다. 구글 젬마(Gemma) 3 4B 기반으로 LoRA 어댑터를 결합한 40억 파라미터 모델로, 기업 환경에서 요구하는 도메인별 맞춤 정책 적용과 감사용 추론 추적을 핵심 기능으로 갖췄다.

이전 세대인 네모트론 3가 이미지 이해를 도입한 것과 달리, 3.5는 사용자 프롬프트·이미지·AI 응답을 하나의 패스에서 통합 평가하도록 설계됐다. 텍스트와 이미지의 조합에서 비로소 드러나는 정책 위반 사례를 단일 판정으로 포착할 수 있다는 점이 기술적 진전으로 꼽힌다. 또한 기업마다 상이한 위험 프로필에 맞춰 안전 범주를 동적으로 추가하거나 비활성화하는 커스텀 정책 기능이 전면 도입됐다. 예컨대 의료 플랫폼과 금융 챗봇, 개발자 도구, 아동 교육 앱은 각기 다른 위험 프로필을 갖는데, 운영 주체가 고유의 규제 기준을 자연어 정책 명세로 입력하면 모델이 내장 분류 체계 대신 해당 정책에 따라 판정한다. 판정 시 선택적으로 단계별 추론 과정을 출력하는 씽크(THINK) 모드도 지원하며, 레이턴시가 최우선인 환경에서는 해당 모드를 끄고 이진 판정만 반환하도록 전환할 수 있다.

다국어 지원 범위도 확장됐다. 영어·프랑스어·스페인어·독일어·중국어·일본어·한국어·아랍어·힌디어·러시아어·포르투갈어·이탈리아어 12개 언어를 명시 학습했으며, 기반 모델인 젬마 3의 제로샷 일반화 능력을 통해 약 140개 언어에서도 추론이 가능하다. 다국어 안전 벤치마크 멀티링구얼 에이지스(Multilingual Aegis)에서 12개 언어 평균 96.5% 유해 콘텐츠 분류 정확도를, RTP-LX에서 평균 88.8%를 기록했다고 엔비디아는 밝혔다. 이전 세대 네모트론 3가 멀티모달 유해 콘텐츠 테스트에서 평균 84% 정확도를 달성한 데 비해 3.5는 전체 벤치마크 평균 약 85%를 유지하면서 커스텀 정책과 추론 기능을 추가했다.

엔비디아는 모델 가중치와 함께 훈련 데이터셋도 공개했다. 다중 교사 모델인 Qwen 397B와 Qwen 80B를 활용해 3문장 이내로 압축된 추론 추적을 생성하고, 이를 학습 신호로 사용한 점이 특징이다. 훈련 이미지의 99%는 생성 이미지가 아닌 실사진으로 구성돼 실환경 콘텐츠의 복잡성을 반영했다고 밝혔다. 네모트론 3.5 콘텐츠 세이프티는 허깅페이스(Hugging Face)에서 NVIDIA 오픈 모델 라이선스로 제공되며, transformers·vLLM·SGLang과 호환된다. 엔터프라이즈 배포를 위한 NVIDIA NIM 마이크로서비스도 build.nvidia.com을 통해 이용할 수 있다.