• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

엔비디아 GB200 NVL72, Slurm 토폴로지 인식 스케줄링으로 엑사스케일 성능 구현

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 23시 01분
Home 반도체·인프라
Share on FacebookShare on Twitter

엔비디아(NVIDIA)와 스케줄엠디(SchedMD)가 협력해 GB200 NVL72 랙 규모 시스템에 최적화된 Slurm 토폴로지 인식 잡 스케줄링 방법론을 공개했다. GB200 NVL72는 단일 랙에 72개의 블랙웰(Blackwell) GPU를 NVLink로 상호 연결해 130TB/s의 저지연 통신 대역폭을 제공하며, 랙 한 대로 엑사스케일 수준의 AI 및 HPC 연산을 처리할 수 있는 시스템이다.

문제는 기존 Slurm의 트리(tree) 플러그인이 랙 규모 시스템에 적합하지 않다는 점이다. 트리 플러그인은 스위치 경계를 기준으로 잡을 배치하기 때문에 NVLink 도메인을 고려하지 않고 작업을 분산시켜 GB200 NVL72의 고대역폭 연결 구조를 활용하지 못하는 단편화 문제가 발생했다. 이를 해결하기 위해 Slurm 버전 23.11에 새로 도입된 토폴로지/블록(topology/block) 플러그인을 적용하면 NVLink 도메인 경계에 맞춰 작업을 배치할 수 있다. 5,000노드 클러스터를 대상으로 한 시뮬레이션에서 이 방식은 토폴로지 인식 없이 달성 가능한 GPU 점유율 이론값과 약 1% 이내의 차이만 보이며 높은 활용률을 유지했다.

Unlock Exascale Performance on NVIDIA GB200 NVL72 with Slurm Topology-Aware Job Scheduling | NVIDIA Technical Blog
이미지 출처: 원문 (Unlock Exascale Performance on NVIDIA GB200 NVL72 with Slurm Topology-Aware Job Scheduling | NVIDIA Technical Blog)

워크로드 유형에 따른 권장 세그먼트 구성도 구체적으로 제시됐다. 혼합 전문가(MoE) 모델 훈련에는 NVLink 최대 용량에 해당하는 128GPU(16노드) 세그먼트가 적합하고, 대형 밀집 모델 훈련은 32~64GPU(4노드 세그먼트), 소형 모델 훈련은 32GPU 미만(1노드 세그먼트)이 권장된다. 대형 작업은 NVLink 전용량을 활용하는 구성을 우선하고, 나머지 자원에 소형 작업을 유연하게 배치해 전체 GPU 활용률을 높이는 전략이다.

GB200 NVL72처럼 랙 전체가 하나의 고속 인터커넥트로 묶이는 랙 규모 시스템에서는 소프트웨어 스케줄러가 하드웨어 토폴로지를 정확히 이해하지 못하면 성능 병목이 발생한다. 이번 가이드는 HPC 및 대규모 AI 훈련 클러스터 운영자가 GB200 NVL72의 하드웨어 잠재력을 소프트웨어 계층에서 온전히 끌어낼 수 있는 구체적 설정 방법을 제공한다는 점에서 실용적 의의가 있다.

Tags: GB200 NVL72HPCNVIDIASlurm스케줄링엑사스케일
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
NVIDIA and Google Cloud Empower the Next Wave of AI Builders

엔비디아·구글 클라우드, AI 빌더 10만명 개발자 커뮤니티 확대

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI과학 AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist Gemini GPU IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 기업공개 데이터센터 마이크로소프트 멀티모달 메타 반도체 벤치마크 보안 생산성 스타트업 스페이스X 시뮬레이션 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 중국 클라우드 클로드 허깅페이스

최근 뉴스

Futuristic abstract artwork showcasing AI concepts with digital text overlays.

2026 음성합성 모델 현황: 구글·인월드·카르테시아가 선두

2026년 06월 01일 23시 57분
Smartphone displaying Alipay app on open laptop with online shopping site.

틱톡, 쇼핑·여행·금융 통합 슈퍼앱 전환 가속

2026년 06월 01일 23시 53분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.