전 오픈AI CTO 미라 무라티(Mira Murati)가 창업한 싱킹머신랩(Thinking Machines Lab)이 풀듀플렉스 방식의 멀티모달 AI 모델 ‘TML-Interaction-Small’을 공개하고 소수의 연구 파트너에게 제한적으로 제공하기 시작했다. 이 모델은 오디오, 영상, 텍스트를 동시에 처리하는 ‘Interaction Models’ 아키텍처를 기반으로 한다.
TML-Interaction-Small은 2760억 개 파라미터의 MoE(전문가 혼합, Mixture of Experts) 구조로 설계됐으며, 실제 추론 시 활성화되는 파라미터는 120억 개다. 이용자가 말을 시작하면 0.4초 이내에 모델이 응답을 시작하는 풀듀플렉스(full-duplex) 방식을 채택해, 상대가 말을 끝낼 때까지 기다리지 않고 동시에 오디오와 영상을 분석·처리할 수 있다.
풀듀플렉스 방식은 기존 순차 처리(반듀플렉스) 모델과 달리 실시간 대화에서 자연스러운 상호작용을 구현하는 데 유리하다. 오픈AI가 ‘GPT-4o’의 실시간 음성 기능으로 이 방향을 제시한 바 있으나, 영상과 오디오를 함께 처리하면서 응답 지연을 0.4초 수준으로 낮춘 모델 아키텍처를 공식 발표한 사례는 드물다.
싱킹머신랩은 현재 20억 달러 규모의 벤처캐피털 투자를 유치한 상태다. 무라티는 2024년 11월 오픈AI를 떠난 뒤 회사를 설립했으며, 이번 ‘Interaction Models’ 공개는 실제 기술 역량을 외부에 처음으로 보여주는 기회다. 연구 파트너 단계를 거쳐 상업 서비스로 전환하는 일정은 아직 공개되지 않았다.
인간과 AI 사이의 상호작용 속도와 자연스러움을 끌어올리는 경쟁은 빠르게 심화되고 있다. 음성·영상 동시 처리와 저지연 응답이 핵심 변수가 되면서, 연구 단계에서 상업 서비스로의 전환 속도가 향후 시장 구도를 가를 분수령이 될 전망이다.


