스트리밍 LLM 안전장치 SentGuard, 문장 단위 실시간 유해 감지

대형 언어 모델(LLM)이 장문의 추론 응답을 실시간으로 스트리밍하는 환경에서 문장 단위로 작동하는 안전 가드레일 SentGuard가 arXiv에 발표됐다. 연구팀은 SentGuard가 5개 안전 벤치마크에서 유해 사례의 90.5%를 두 문장 이내에 탐지하면서 스트리밍 거짓 양성률(false-positive rate) 7.41%를 유지한다는 결과를 보고했다. 또한 연구팀은 8개 유해 범주에 걸쳐 문장별 주석을 포함한 벤치마크 StreamSafe도 함께 공개했다.

기존 LLM 안전 가드레일은 두 가지 한계 중 하나를 갖는다. 응답 수준 방법은 전체 출력이 생성될 때까지 개입을 미뤄야 하고, 토큰 수준 방법은 불완전한 의미 단위에서 판단해 불안정한 결정과 과도한 가드 호출을 낳는다. SentGuard는 생성과 병렬로 작동하면서 경량 대기 버퍼가 스트리밍 토큰을 문장 단위로 묶어 검증된 청크만 사용자에게 전달하는 방식을 취한다. 이 소규모 오프셋 덕분에 SentGuard는 대상 LLM이 다음 내용을 디코딩하는 동안 현재 접두사를 평가할 수 있다.

SentGuard는 문장 경계에서 유해 의도가 나타나는 즉시 탐지하도록 거친 단계에서 세밀한 단계로 이어지는 목표 함수로 훈련됐다. 연구팀은 추론 세그먼트와 응답 세그먼트 모두에 걸쳐 안전 위험이 어떻게 전개되는지를 포착하도록 StreamSafe 벤치마크를 구성했으며, 이를 통해 추론 과정에서 점진적으로 유해해지는 패턴을 포함한 다양한 유해 시나리오를 평가할 수 있는 기반을 마련했다.

LLM 기반 서비스가 스트리밍 방식의 긴 응답을 기본으로 제공하는 방향으로 발전하면서, 응답이 끝나기 전에 실시간으로 유해 콘텐츠를 차단하는 능력은 서비스 안전성의 핵심 요소가 됐다. SentGuard의 문장 수준 접근법은 응답 지연을 최소화하면서도 의미 완결성을 보장하는 실용적 균형을 제시한다는 점에서, LLM 안전 인프라 구축에 관심을 가진 연구자와 서비스 개발자 모두에게 참고할 만한 방향을 제시한다.