• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

NVIDIA GB200 NVL72, Slurm 블록 스케줄링으로 랙 단위 워크로드 효율 극대화

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 18시 12분
Home 반도체·인프라
Share on FacebookShare on Twitter

NVIDIA GB200 NVL72는 단일 랙 안에 72개의 블랙웰(Blackwell) GPU를 5세대 NVLink로 통합해 GPU당 1.8TB/s, 랙 전체 130TB/s의 양방향 대역폭을 제공하는 랙 단위 엑사스케일 컴퓨팅 플랫폼이다. 그러나 이 아키텍처는 기존 클러스터 스케줄러가 가정한 전제를 근본적으로 바꿔놓았다. NVLink 도메인 경계를 넘는 순간 GPU 간 통신이 NVLink 속도에서 인피니밴드(InfiniBand) 또는 이더넷 수준인 약 50GB/s로 급감하기 때문에, 워크로드 배치 시 랙 단위 지역성이 필수 조건으로 부상했다.

이를 해결하기 위해 NVIDIA와 SchedMD가 공동 개발한 Slurm의 `topology/block` 플러그인이 Slurm 23.11 버전부터 도입됐다. 기존 `topology/tree` 플러그인이 스위치 계층 구조를 최대한 최적화하되 필요하면 여러 리프 스위치에 분산 배치를 허용하는 방식이었다면, `topology/block`은 블록(18노드, 즉 단일 NVL72 도메인)을 원자 단위로 취급해 한 블록 내에 들어오는 요청은 절대 분할하지 않는다. 18노드 이하 작업은 반드시 하나의 블록 안에서만 자원이 할당되므로, NVLink 대역폭을 온전히 활용할 수 있다.

Close-up view of modern rack-mounted server units in a data center.
사진: panumas nikhomkhai / Pexels

유연성을 높이기 위해 `–segment` 인수도 도입됐다. 이 파라미터는 NVLink 연결이 반드시 필요한 최소 노드 그룹 크기를 지정한다. 예를 들어 12노드 작업에 `–segment=4`를 지정하면 세 개의 서로 다른 블록에 각 4노드씩 분산 배치가 허용돼, 단일 블록에 12개의 유휴 노드가 모일 때까지 대기할 필요 없이 즉시 실행될 수 있다. 텐서 병렬성(Tensor Parallelism)처럼 지연 시간에 민감한 통신은 작은 세그먼트로, 전문가 병렬성(Expert Parallelism)처럼 올투올(all-to-all) 집합 연산이 필요한 경우는 큰 세그먼트로 지정함으로써 워크로드 특성에 맞는 최적 배치를 달성할 수 있다. Slurm 25.11에서는 `–consolidate-segments`와 `–spread-segments` 옵션도 추가돼 세그먼트 배치 전략을 더욱 세밀하게 제어할 수 있게 됐다.

GB200 NVL72 클러스터를 운영하는 관리자에게 권장되는 설정은 NVL72 도메인 하나(18노드)를 블록 하나로 정의하는 것이다. 이 구성에서 `–segment` 없이 18노드 이하 작업을 제출하면 Slurm은 자원이 충분한 단일 블록을 확보할 때까지 대기열에 유지하며 블록 간 분할을 허용하지 않는다. 에이전틱 AI와 대규모 언어 모델 훈련·추론 수요가 폭발적으로 증가하면서 GB200 NVL72 같은 랙 단위 초고대역폭 플랫폼 도입이 가속되고 있으며, 이에 맞는 스케줄러 최적화 기법이 실제 클러스터 효율을 좌우하는 핵심 운영 역량으로 자리잡을 전망이다.

Tags: GB200GPU클러스터HPCNVIDIANVL72NVLinkSlurm
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
NVIDIA RTX PRO 4500 Blackwell이 게놈 분석·단백질 폴딩 등 생명과학 워크로드를 가속하는 성능을 공개했다.

NVIDIA RTX PRO 4500 Blackwell, 게놈 분석·단백질 폴딩 속도 두 배 높인다

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI과학 AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist Gemini GPU IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 기업공개 데이터센터 마이크로소프트 멀티모달 메타 반도체 벤치마크 보안 생산성 스타트업 스페이스X 시뮬레이션 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 중국 클라우드 클로드 허깅페이스

최근 뉴스

Futuristic abstract artwork showcasing AI concepts with digital text overlays.

2026 음성합성 모델 현황: 구글·인월드·카르테시아가 선두

2026년 06월 01일 23시 57분
Smartphone displaying Alipay app on open laptop with online shopping site.

틱톡, 쇼핑·여행·금융 통합 슈퍼앱 전환 가속

2026년 06월 01일 23시 53분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.