허깅페이스 Reachy Mini, 클라우드 없이 온디바이스 AI 대화 구현

허깅페이스(Hugging Face)가 소형 오픈소스 로봇 Reachy Mini에서 클라우드나 외부 API 없이 완전히 로컬로 AI 대화를 구동하는 방법을 공개했다. 이 스택은 허깅페이스의 ‘speech-to-speech’ 라이브러리를 중심으로 음성 활동 감지(VAD), 음성 인식(STT), 대규모 언어 모델(LLM), 음성 합성(TTS) 네 단계를 직렬 연결한 캐스케이드 파이프라인으로 구성된다. 모든 처리가 기기 내에서 이뤄지므로 음성 데이터가 외부로 전송되지 않으며 API 사용료도 발생하지 않는다.

권장 구성 요소를 보면 LLM 서빙에는 llama.cpp와 Gemma 4 모델을, VAD에는 Silero VAD v5를, STT에는 Parakeet-TDT 0.6B v3를, TTS에는 Qwen3-TTS를 사용한다. llama.cpp 서버에서 LLM을 띄우면 speech-to-speech 라이브러리가 WebSocket 엔드포인트를 통해 이를 호출하는 구조다. speech-to-speech는 `pip install speech-to-speech` 한 줄로 설치되며, 로봇 데스크탑 앱의 대화 앱에서 로컬 모드를 선택하면 Reachy Mini와 연결된다. 처음 실행 시 Parakeet-TDT와 Qwen3-TTS 모델을 내려받지만 이후 실행은 빠르게 시작된다. 각 단계의 모델은 필요에 따라 교체 가능해 고품질 STT 또는 특정 언어 최적화 TTS를 선택하는 식으로 파이프라인을 조정할 수 있다.

Close-up of a robotic arm interacting with a chess setup showcasing AI innovation. — 사진: Pavel Danilyuk / Pexels

허깅페이스는 캐스케이드 구조가 오픈소스 환경에서 가장 유연한 선택이라고 설명한다. LLM 추론 지연이 병목이 될 경우, LLM 서버를 별도 프로세스로 분리하고 음성 루프가 Responses API 프로토콜로 호출하는 이중 터미널 구조를 대안으로 제시한다. vLLM 0.21.0 이상, MLX, HuggingFace Inference Endpoints, OpenAI나 Gemini 같은 외부 서비스까지 Responses API를 지원하는 어떤 엔진도 LLM 백엔드로 연결할 수 있다. 이 설계는 뇌(LLM)와 음성 루프를 분리해 각각 독립적으로 업그레이드하거나 교체할 수 있다는 점에서 모듈성이 높다.

프라이버시와 비용 통제가 주된 동기이지만, 허깅페이스는 완전한 파이프라인 제어도 핵심 이점으로 내세운다. 허깅페이스 Hub에서 새 모델이 출시될 때마다 VAD·STT·LLM·TTS 각각을 독립적으로 교체해 최신 성능을 즉시 적용할 수 있다. 에지 디바이스와 오픈소스 모델의 성능이 빠르게 향상되면서, 클라우드 의존 없이 로봇·IoT 기기에서 실용적인 AI 대화를 구현하는 온디바이스 AI의 적용 범위가 넓어지고 있다.