• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

NVIDIA, 에이전트 AI 추론 위한 Vera Rubin·Groq 3 LPX 통합 아키텍처 공개

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 14시 36분
Home 반도체·인프라
Share on FacebookShare on Twitter

엔비디아(NVIDIA)가 에이전트 AI(Agentic AI) 추론의 규모 확장 문제를 해결하기 위한 통합 플랫폼 아키텍처를 공식 기술 블로그를 통해 상세 공개했다. 핵심은 Vera Rubin NVL72 GPU 래크와 Groq 3 LPX(Large Processing Unit eXtended)를 역할에 따라 분담시키는 이기종 설계로, 1조 파라미터 규모 MoE(Mixture of Experts, 전문가 혼합) 모델 기준으로 사용자당 400 토큰/초를 달성하며 메가와트당 처리량은 GB200 NVL72 대비 최대 35배 높다고 밝혔다.

Vera Rubin NVL72는 래크 한 대에 3,600 PFLOPS의 NVFP4 연산 성능, 20.7TB의 HBM4(High Bandwidth Memory 4세대) 용량, 1.6PB/s의 메모리 대역폭을 갖춘다. 이 시스템은 에이전트 AI 추론에서 프리필(prefill)·긴 컨텍스트 디코드 어텐션·고동시 서빙을 담당한다. Groq 3 LPX는 LPU(Language Processing Unit) 한 개당 96개의 칩 간 링크를 112Gbps로 연결해 LPU당 약 2.5TB/s, 256개 LPU가 구성하는 래크 전체로는 640TB/s의 스케일업 대역폭을 확보한다. 두 시스템의 역할 분담은 AFD(Attention-FFN Disaggregation, 어텐션-FFN 분리) 방식으로 구현된다. Vera Rubin GPU가 누적된 KV 캐시에 대한 디코드 어텐션을 처리하는 동안 Groq 3 LPX는 FFN(Feed-Forward Network) 실행을 가속하며, 매 토큰마다 중간 활성화 데이터를 낮은 오버헤드로 교환한다. Groq 3 LPX는 2026년 하반기 출시 예정이다.

데이터센터의 서버 랙과 케이블 배선
사진: Brett Sayles / Pexels

에이전트 AI는 단일 요청을 처리하는 기존 추론과 달리 다단계 추론·도구 호출·장기 컨텍스트 유지가 동시에 요구되기 때문에 기존 GPU 아키텍처만으로는 대역폭과 지연 시간 두 가지를 동시에 충족하기 어렵다. 엔비디아는 이번 플랫폼이 수십만 명 규모의 동시 에이전트를 서비스하는 AI 팩토리 구현을 겨냥하며, 에이전트 워크로드에서 발생하는 매출 기회가 기존 대비 최대 10배 확대된다고 설명했다. 엔비디아는 DynoSim 시뮬레이터로 파레토 최적 프런티어를 사전에 도출해 실제 배포 전에 구성 최적화가 가능하다고 덧붙였다.

Vera Rubin NVL72의 HBM4는 삼성전자와 SK하이닉스가 핵심 공급사로 거론되는 차세대 메모리 규격이다. 래크 한 대에 20.7TB에 달하는 HBM4 탑재 요구는 두 기업의 고대역폭 메모리 생산 로드맵과 직결된다. 에이전트 AI 인프라 수요가 본격화할 경우 HBM4 출하량 전망과 단가 협상에서 한국 반도체 업계가 유리한 위치를 점할 수 있다는 시각이 있다. 다만 Groq 3 LPX의 SRAM 중심 구조가 HBM 의존도를 분산시키는 방향이어서, 전체 메모리 수요 구조가 기존 HBM 단일 의존 체계에서 복합 구조로 진화할 가능성도 함께 주목된다.

Tags: AI 인프라Groq 3 LPXHBM4NVIDIAVera Rubin에이전트 AI
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
검은 스마트워치가 어두운 배경 위에 놓여 있는 모습, AI 웨어러블 기기를 상징

메타, AI 펜던트 개발 착수… 웨어러블 사업 전방위 확장

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI 검색 AI과학 AI규제 AI보안 AI안전 AI 에이전트 AI에이전트 AI윤리 AI인프라 AI 인프라 Anthropic AWS Claude Co-Scientist IPO LLM MCP OpenAI 거버넌스 구글 기업공개 노동시장 데이터센터 마이크로소프트 멀티모달 메타 반도체 사이버보안 삼성전자 생산성 생성형AI 스페이스X 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 인수합병 중국 챗GPT 클라우드 클로드 허깅페이스

최근 뉴스

Detailed close-up view of electronic circuit board, showcasing modern technology.

AI 붐이 전력을 전략 자산으로 바꾸다, 빅테크·자동차 기업 에너지 사업 직접 진출

2026년 06월 01일 15시 31분
검은 스마트워치가 어두운 배경 위에 놓여 있는 모습, AI 웨어러블 기기를 상징

메타, AI 펜던트 개발 착수… 웨어러블 사업 전방위 확장

2026년 06월 01일 15시 12분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.