스타트업 Subquadratic, 희소 어텐션 LLM SubQ 공개…속도 56배·비용 300분의 1 주장

마이애미 기반 AI 스타트업 서브쿼드래틱(Subquadratic)이 대규모 언어 모델(LLM)의 근본적 병목인 ‘밀집 어텐션(dense attention)’ 문제를 해결했다고 주장하는 모델 SubQ를 공개하고 제3자 평가 결과를 내놓았다. AI 평가 전문 기업 에펜(Appen)이 수행한 독립 테스트 결과는 속도, 비용, 컨텍스트 창 길이 세 가지 측면에서 기존 최고 수준 모델들과 현격한 차이를 기록했다는 것이 핵심이다.

SubQ가 풀려는 문제는 트랜스포머 모델의 핵심 연산인 밀집 어텐션에서 비롯된다. 입력 텍스트 길이가 두 배 늘어나면 연산량이 약 네 배 증가하는 2차(quadratic) 확장이 일어나, 긴 텍스트를 처리할수록 연산 비용·전력 소비·속도가 급격히 나빠진다. 서브쿼드래틱의 접근법은 이 밀집 어텐션을 ‘희소 어텐션(sparse attention)’으로 대체하는 것이다. 모든 토큰 쌍을 곱하는 대신 의미 있는 관계를 갖는 일부만 선택해 곱하며, 어떤 쌍이 중요한지를 텍스트마다 동적으로 계산한다는 것이 기존 희소 어텐션 시도들과 다르다고 주장하는 지점이다. 선택 메커니즘의 구체적 방식은 영업 비밀이라고 밝혔다.

A startup claims it broke through a bottleneck that's holding back LLMs — 이미지 출처: 원문 (A startup claims it broke through a bottleneck that’s holding back LLMs)

에펜의 독립 평가 결과는 인상적이다. 속도 기준 테스트에서 SubQ는 이전 희소 어텐션 기술인 플래시어텐션(FlashAttention) 대비 56배 빠른 속도를 기록했다. 실제 코딩 대회 문제로 성능을 측정하는 라이브코드벤치(LiveCodeBench)에서는 89.7%를 기록해 최상위권 코딩 모델들과 비슷한 수준을 보였다. 컨텍스트 창 길이는 최대 1,200만 토큰으로 대부분의 최고 수준 모델이 제공하는 100만 토큰의 12배다. 비용 측면에서는 앤트로픽(Anthropic)의 Opus 4.6 모델을 RULER 128로 실행하는 데 2,600달러가 드는 반면, SubQ로 같은 작업을 수행하는 비용은 8달러라고 공동 창업자 겸 CEO 저스틴 당엘(Justin Dangel)이 밝혔다. 에펜 생성형 AI 리서치 디렉터 지닌 시나난-싱(Jeanine Sinanan-Singh)은 “이것은 게임 체인저가 될 수 있지만, 충격적인 결과일수록 스스로 말하게 해서는 신뢰성이 낮다”고 덧붙였다.

회의론은 여전히 상당하다. 인디펜던트 AI 연구자 윌 드퓨(Will Depue, 전 오픈AI 재직)는 희소 어텐션 아이디어 자체는 이미 “해 아래 새것이 없을 만큼 시도됐다”며 성공은 “4분 마일을 깨는 것과 비슷한 수준”이라고 평가했다. 또한 서브쿼드래틱이 SubQ를 처음부터 새로 학습시킨 것이 아니라 중국 오픈소스 모델 Qwen의 가중치를 재사용해 부트스트랩했다는 점은 아키텍처를 완전히 재발명했다는 주장과 상충한다. SubQ가 아직 일반에 공개되지 않아 독립적으로 재현 테스트를 할 수 없다는 점도 신중론의 근거다. 현재 조기 접근 대기자가 수만 명, 기업 고객만 500개 이상에 달한다고 밝혔지만 실제 서비스 접근은 극히 제한적이다.

이 기술이 성숙한다면 국내 AI 시장에도 중요한 시사점을 갖는다. 만약 SubQ가 주장하는 수준의 효율화가 실제 프로덕션 환경에서 재현된다면 동일 예산으로 훨씬 많은 사용자를 처리하거나, 법률 문서·기업 보고서·의료 기록처럼 긴 컨텍스트가 필요한 분야에서 의미 있는 변화가 가능해진다. 공동 창업자 알렉스 웨던(Alex Whedon)은 “몇 년 안에 아무도 트랜스포머 위에서 개발하지 않게 될 것”이라고 자신감을 내비쳤지만, 이 주장의 실현 여부는 오직 더 광범위한 독립 검증을 통해서만 확인될 수 있다. 흥미로운 주장이 나왔다는 것은 분명하지만, 검증이 완료되기 전까지 신중한 관망이 합리적 태도다.