구글 제미나이 3.5 Flash, 초당 300토큰 효율로 에이전트 시대 겨냥

구글이 효율을 전면에 내세운 제미나이(Gemini) 3.5 Flash를 공개하고 여러 제품에 순차 적용에 들어갔다. 핵심은 속도다. 새 모델은 초당 약 300토큰을 출력하면서도 벤치마크 점수는 출력 속도가 4분의 1 수준인 상위 모델, 곧 3.1 Pro 같은 프런티어급과 비슷하다는 게 구글의 설명이다. 제미나이 제품 관리 선임 디렉터 툴시 도시(Tulsee Doshi)는 3.5 Flash의 개선점이 여러 구글 제품에 녹아 있으며 이는 시작일 뿐이라고 밝혔다.

구글이 속도와 효율을 앞세우는 배경에는 생성 AI의 비용 구조가 있다. 생성 AI는 막대한 자금을 빨아들이는 사업이고, 주요 기업 모두 더 높은 효율로 가는 길을 찾고 있다. 이 문제는 복잡한 작업을 끝낼 때까지 오래 돌아가야 하는 에이전트형 서비스를 만들 때 더 커진다. 제미나이 3.5 Flash는 그런 작업을 대규모로 실행할 만한 수준에 다가서는 한 걸음이라는 평가가 나온다. 구글은 토큰을 가장 많이 쓰는 기업들이 더 효율적인 3.5 Flash로 옮기면 연간 10억 달러를 아낄 수 있다고 주장했다.

Close-up of the Google homepage on a screen showing search options. — 사진: Sarah Blocksidge / Pexels

가격도 낮아졌다. 제미나이 3.5 Flash의 API 가격은 입력 토큰 100만 개당 1.50달러, 출력 토큰 100만 개당 9달러다. 이를 본떠 만든 상위 3.1 Pro 모델이 각각 2달러와 12달러에서 시작하고 20만 토큰을 넘기면 더 비싸지는 것과 비교하면 상당히 저렴하다. 구글은 지난 1년간 이른바 틱톡 방식으로 모델을 갱신해 왔는데, 직전 세대 Pro보다 신형이 낫다는 주장도 그 흐름의 연장선이다. 다만 이번에는 특별하다는 게 구글 측 설명이다.

지난해 같은 행사에서 구글이 제미나이 2.5 계열을 이야기했던 것을 떠올리면 1년 사이의 변화는 가파르다. 그사이 3.0과 3.1 계열을 거쳐 이제 3.5에 이르렀다. 비용이 관건인 에이전트 AI 경쟁에서 속도와 가격을 동시에 끌어내린 효율형 모델은 국내 기업의 도입 판단에도 직접적인 변수가 될 전망이다. 빠른 응답과 낮은 단가가 결합되면 대규모 자동화에 AI를 붙이는 진입 장벽이 한층 낮아지기 때문이다.