• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

허깅페이스 Reachy Mini, 클라우드 없이 온디바이스 AI 대화 구현

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 16시 57분
Home AI 서비스·툴
Share on FacebookShare on Twitter

허깅페이스(Hugging Face)가 소형 오픈소스 로봇 Reachy Mini에서 클라우드나 외부 API 없이 완전히 로컬로 AI 대화를 구동하는 방법을 공개했다. 이 스택은 허깅페이스의 ‘speech-to-speech’ 라이브러리를 중심으로 음성 활동 감지(VAD), 음성 인식(STT), 대규모 언어 모델(LLM), 음성 합성(TTS) 네 단계를 직렬 연결한 캐스케이드 파이프라인으로 구성된다. 모든 처리가 기기 내에서 이뤄지므로 음성 데이터가 외부로 전송되지 않으며 API 사용료도 발생하지 않는다.

권장 구성 요소를 보면 LLM 서빙에는 llama.cpp와 Gemma 4 모델을, VAD에는 Silero VAD v5를, STT에는 Parakeet-TDT 0.6B v3를, TTS에는 Qwen3-TTS를 사용한다. llama.cpp 서버에서 LLM을 띄우면 speech-to-speech 라이브러리가 WebSocket 엔드포인트를 통해 이를 호출하는 구조다. speech-to-speech는 `pip install speech-to-speech` 한 줄로 설치되며, 로봇 데스크탑 앱의 대화 앱에서 로컬 모드를 선택하면 Reachy Mini와 연결된다. 처음 실행 시 Parakeet-TDT와 Qwen3-TTS 모델을 내려받지만 이후 실행은 빠르게 시작된다. 각 단계의 모델은 필요에 따라 교체 가능해 고품질 STT 또는 특정 언어 최적화 TTS를 선택하는 식으로 파이프라인을 조정할 수 있다.

Close-up of a robotic arm interacting with a chess setup showcasing AI innovation.
사진: Pavel Danilyuk / Pexels

허깅페이스는 캐스케이드 구조가 오픈소스 환경에서 가장 유연한 선택이라고 설명한다. LLM 추론 지연이 병목이 될 경우, LLM 서버를 별도 프로세스로 분리하고 음성 루프가 Responses API 프로토콜로 호출하는 이중 터미널 구조를 대안으로 제시한다. vLLM 0.21.0 이상, MLX, HuggingFace Inference Endpoints, OpenAI나 Gemini 같은 외부 서비스까지 Responses API를 지원하는 어떤 엔진도 LLM 백엔드로 연결할 수 있다. 이 설계는 뇌(LLM)와 음성 루프를 분리해 각각 독립적으로 업그레이드하거나 교체할 수 있다는 점에서 모듈성이 높다.

프라이버시와 비용 통제가 주된 동기이지만, 허깅페이스는 완전한 파이프라인 제어도 핵심 이점으로 내세운다. 허깅페이스 Hub에서 새 모델이 출시될 때마다 VAD·STT·LLM·TTS 각각을 독립적으로 교체해 최신 성능을 즉시 적용할 수 있다. 에지 디바이스와 오픈소스 모델의 성능이 빠르게 향상되면서, 클라우드 의존 없이 로봇·IoT 기기에서 실용적인 AI 대화를 구현하는 온디바이스 AI의 적용 범위가 넓어지고 있다.

Tags: HuggingFaceReachy Minispeech-to-speech로봇AI온디바이스
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
테이블 위에 켜진 노트북, 코딩 작업과 AI 개발자 환경을 상징

앤트로픽 연구, 사회과학자 AI 코딩 에이전트 사용 성별 격차 2배 확인

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI과학 AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist IBM IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 기업공개 데이터센터 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 사이버보안 생산성 생성형AI 스페이스X 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 중국 클라우드 클로드 허깅페이스

최근 뉴스

여성 얼굴에 바이너리 코드가 투영된 디지털 개념 이미지 — AI 챗봇 인간 행동 시뮬레이션

AI 챗봇 유용성 훈련이 인간 행동 시뮬레이션 능력을 약화시킨다

2026년 06월 01일 20시 36분
데이터센터 서버 랙과 케이블 배선 — AI 전력 수요와 에너지 산업

AI 전력 수요가 에너지 산업 판도를 바꾼다

2026년 06월 01일 20시 00분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.