전 오픈AI(OpenAI) CTO 미라 무라티(Mira Murati)가 이끄는 씽킹머신랩(Thinking Machines Lab)이 5월 11일(현지시간) 첫 번째 모델 ‘TML-Interaction-Small’을 공개했다. 200ms 단위 마이크로턴 구조로 사람처럼 말하면서 동시에 듣는 풀덱플렉스(full-duplex) 음성 대화를 구현하며, 응답 레이턴시 0.40초를 달성했다고 밝혔다.

TML-Interaction-Small은 MoE(Mixture of Experts, 전문가 혼합) 아키텍처를 채택해 총 파라미터 276B(억) 중 실제 추론에 활성화되는 파라미터는 12B다. 인코더 없는 얼리 퓨전(early fusion) 방식으로 오디오·비디오·텍스트를 연속 스트림으로 동시 처리한다. 씽킹머신랩이 자체 공개한 실시간 대화 평가 기준 FD-bench V1.5에서 77.8점을 기록했다. 같은 기준으로 지피티 리얼타임-2.0(GPT-realtime-2.0)은 46.8점, 제미나이-3.1-플래시-라이브(Gemini-3.1-flash-live)는 54.3점으로 나타났다. 응답 레이턴시도 TML이 0.40초인 반면, GPT-realtime 계열은 1.18~1.63초 수준으로 측정됐으며, Gemini-3.1-flash-live(minimal)는 0.57초로 TML과 근접한 수준이다. 지능 벤치마크에서도 오디오 멀티챌린지(Audio MultiChallenge) APR 43.4%, 빅벤치 오디오(BigBench Audio) 75.7%/96.5%, IFEval(텍스트) 89.7%를 기록했다.
현재 TML-Interaction-Small은 제한적 리서치 프리뷰 단계다. 씽킹머신랩에 따르면 프리뷰는 수개월 내 시작되며 정식 출시는 2026년 하반기로 예정돼 있다. 씽킹머신랩은 오픈AI 전 CTO 미라 무라티가 2024년 10월 오픈AI를 퇴사한 직후 창업한 스타트업으로(TechCrunch, 2025.02.18), 2025년 6월 20억 달러 규모 시드 라운드를 클로징했다(TechCrunch, 2025.06.20). 풀덱플렉스 AI는 국내 콜센터·고객서비스 자동화 및 음성 에이전트 도입을 검토하는 기업에 실질적인 기술 선택지가 될 것으로 관측된다. 지금까지 실시간 음성 AI의 주요 약점으로 꼽혔던 높은 레이턴시와 끊김 없는 양방향 대화의 한계를 수치상으로 의미 있게 좁혔다는 점에서 업계가 주목하고 있다.


