생성형 인공지능(AI)을 사용하다 보면 질문에 따라 답변이 즉각 나오기도 하고, 몇 초간 아무 반응이 없다가 느릿느릿 글자가 생성되기도 한다. 그 해답은 AI 응답 지연을 두 단계로 나눠 측정하는 ‘TTFT’와 ‘TPOT’라는 두 지표에 있다. 이 두 개념은 단순한 기술 용어를 넘어, AI 서비스의 사용자 경험(UX)과 운영 비용을 동시에 결정하는 핵심 설계 변수로 기업들 사이에서 주목받고 있다.
TTFT는 ‘Time To First Token’의 약어로, 사용자가 질문을 입력한 후 AI가 첫 번째 글자(토큰)를 출력하기까지 걸리는 시간을 뜻한다. 토큰은 LLM(대규모 언어 모델)이 언어를 처리하는 최소 단위로, 영어 단어 하나 또는 한국어 1~2음절에 해당한다. 아무 일도 일어나지 않는 것처럼 보이는 TTFT 구간 동안 AI는 내부적으로 질문 전체를 읽고 의미를 파악한 뒤 어떤 답변을 생성할지 준비하는 연산을 수행한다. 질문이 길수록, 첨부된 문서가 많을수록 처리해야 할 입력 토큰이 늘어나 TTFT가 길어진다. TPOT는 ‘Time Per Output Token’의 약어로, AI가 첫 글자를 출력한 후 그다음 토큰을 이어 생성하는 데 걸리는 평균 시간이다. TTFT가 답변이 시작되기까지의 대기 시간이라면, TPOT는 일단 시작된 답변이 끝까지 출력되는 속도를 가른다.

두 지표가 기업 AI 서비스 설계에서 중요한 이유는 사용자 이탈과 직결되기 때문이다. 첫 반응이 3초 이상 지연되면 사용자는 서비스가 멈췄다고 인식하고 이탈하는 경향이 있다는 것이 업계의 공통된 관찰이다. 하드웨어 관점에서 TTFT는 주로 AI 모델이 긴 입력 프롬프트를 처리하는 ‘프리필(Prefill)’ 단계의 연산 속도에 좌우되며, GPU 메모리 대역폭과 배치 처리 방식이 핵심 변수다. TPOT는 출력 토큰을 하나씩 생성하는 ‘디코딩(Decoding)’ 단계의 속도와 관련이 깊으며, 모델 크기와 추론 최적화 기술(양자화, 디스틸레이션 등)이 영향을 미친다. AI 서비스 제공사들은 TTFT 단축을 위한 고속 프리필 가속, TPOT 개선을 위한 스펙큘레이티브 디코딩(Speculative Decoding) 등 서로 다른 기술적 접근을 병행하고 있다.
단, 무조건 빠른 답변이 최선은 아니다. AI가 TTFT를 극단적으로 줄이기 위해 충분한 사고 없이 답변을 내놓으면 정확도가 떨어질 수 있다. 법률·의료·금융·보안처럼 오답이 치명적인 분야에서는 속도보다 정확성이 우선이다. 오픈AI의 o시리즈, 구글의 제미나이 씽킹(Thinking) 모드, 딥시크의 R1 등 최근 ‘추론 모델(Reasoning Model)’들이 TTFT를 희생하는 대신 답변 품질을 높이는 방향을 선택한 것도 이 때문이다.
한국 AI 서비스 시장에서도 이 두 지표의 중요성이 본격적으로 부각되고 있다. 네이버의 하이퍼클로바X, 카카오의 KoGPT, SK텔레콤의 에이닷(A.) 등 국내 AI 서비스들이 사용자 확보를 위해 응답 속도 경쟁에 뛰어들고 있으며, 이는 곧 TTFT·TPOT 최적화 인프라 투자로 이어지고 있다. 동일한 모델 성능을 갖추더라도 추론 인프라 최적화 수준에 따라 사용자 체감 품질이 크게 달라지는 시대가 됐다. AI 서비스의 경쟁력이 모델 파라미터 수나 벤치마크 점수에서 실제 서비스 응답성과 운영 안정성으로 이동하고 있는 것이다. TTFT와 TPOT를 잘 관리하는 서비스가 사용자 이탈을 줄이고 동일한 GPU 자원으로 더 많은 요청을 처리해 운영 효율성을 높일 수 있다.














