AI 경량화 및 최적화 기술 기업 노타(Nota)가 인텔 루나 레이크(Intel Lunar Lake) 기반 AI PC 환경에서 GPU와 NPU를 분리해 LLM(대규모 언어 모델)을 실행하는 이기종 컴퓨팅 추론 기술을 구현했다. 두 연산 장치를 단순히 함께 쓰는 것이 아니라 LLM의 작업 특성에 맞게 역할을 분담한 것이 핵심이다.
노타는 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로 구분한 뒤, 입력 처리는 GPU에서, 답변 생성은 NPU(신경망처리장치)에서 수행하도록 설계했다. 평가 결과 단일 GPU 방식 대비 토큰당 에너지 소비가 약 32% 줄었고 생성 처리량은 약 12% 향상됐다. 단일 NPU 방식과 비교하면 첫 응답 지연 시간이 약 89% 단축됐다. 평가는 인텔 루나 레이크 기반 AI PC에서 MoE(전문가 혼합) LLM, 컨텍스트 윈도 512 조건으로 진행됐다.
채명수 노타 대표는 AI PC 시대에는 AI 모델을 기기에 올리는 것만으로는 충분하지 않으며, GPU·NPU 등 다양한 연산 장치를 모델 특성에 맞게 조합하는 최적화 역량이 실제 AI 경험을 좌우한다고 강조했다. AI 에이전트용 PC나 로컬 환경에서 LLM을 반복 실행해야 하는 상황에서 모델 경량화뿐 아니라 런타임 수준의 하드웨어 활용 최적화가 중요해진다는 설명이다.
AI PC 시장에서 경쟁의 축이 개별 칩의 연산 성능에서 시스템 전체 최적화로 이동하는 추세가 뚜렷해지고 있다. 노타는 이번 성과를 바탕으로 모델 경량화, 런타임 최적화, 하드웨어 최적화 기술을 결합해 AI PC 환경의 LLM 실행 효율을 지속적으로 높여 나간다는 계획이다.














