허깅페이스가 소형 로봇 ‘리치 미니(Reachy Mini)’를 외부 클라우드 없이 완전히 로컬 환경에서 음성 대화로 구동하는 방법을 공개했다. 인터넷 연결이나 외부 서버에 의존하지 않고 기기 자체에서 AI 대화를 처리하는 방식이다. 외부 API 호출 없이도 로봇과 음성으로 주고받을 수 있다는 점이 핵심이다.
이 구성은 음성-대-음성(speech-to-speech) 파이프라인을 기반으로 한다. 음성 활동 감지(VAD), 음성 인식(STT), 대규모 언어모델(LLM), 음성 합성(TTS)을 단계적으로 연결한 구조로, 실시간 응답을 위한 웹소켓 인터페이스를 노출한다. 사용자가 말하면 이를 텍스트로 바꾸고, 모델이 답을 만든 뒤 다시 음성으로 들려주는 흐름이 기기 안에서 완결된다.

허깅페이스는 이런 ‘캐스케이드(cascade)’ 방식이 현재 오픈소스 생태계에서 가장 유연한 선택지라고 설명했다. 각 단계의 구성요소를 원하는 모델로 자유롭게 교체할 수 있어, 새 모델이 나올 때마다 손쉽게 갈아 끼울 수 있다는 것이다. 단계를 분리해 두면 특정 모델에 묶이지 않고 최신 성과를 빠르게 반영할 수 있다.
온디바이스 AI는 데이터를 외부로 보내지 않아 사생활 보호와 응답 지연 측면에서 이점이 있다. 대화 내용이 기기 밖으로 나가지 않으니 민감한 환경에서도 활용 여지가 넓다. 로봇·기기에 AI를 직접 탑재하려는 흐름이 강해지면서, 로컬 구동 방식의 가치도 커지고 있다.
국내 개발자와 메이커로서도 오픈소스 구성요소를 조합해 로컬에서 동작하는 대화형 로봇을 구축하는 접근은 실험과 학습에 유용한 참고가 된다. 클라우드 비용 없이 다양한 모델을 직접 시험해 볼 수 있다는 점도 매력으로 꼽힌다.


