NVIDIA GB200 NVL72, Slurm 블록 스케줄링으로 랙 단위 워크로드 효율 극대화

NVIDIA GB200 NVL72는 단일 랙 안에 72개의 블랙웰(Blackwell) GPU를 5세대 NVLink로 통합해 GPU당 1.8TB/s, 랙 전체 130TB/s의 양방향 대역폭을 제공하는 랙 단위 엑사스케일 컴퓨팅 플랫폼이다. 그러나 이 아키텍처는 기존 클러스터 스케줄러가 가정한 전제를 근본적으로 바꿔놓았다. NVLink 도메인 경계를 넘는 순간 GPU 간 통신이 NVLink 속도에서 인피니밴드(InfiniBand) 또는 이더넷 수준인 약 50GB/s로 급감하기 때문에, 워크로드 배치 시 랙 단위 지역성이 필수 조건으로 부상했다.

이를 해결하기 위해 NVIDIA와 SchedMD가 공동 개발한 Slurm의 `topology/block` 플러그인이 Slurm 23.11 버전부터 도입됐다. 기존 `topology/tree` 플러그인이 스위치 계층 구조를 최대한 최적화하되 필요하면 여러 리프 스위치에 분산 배치를 허용하는 방식이었다면, `topology/block`은 블록(18노드, 즉 단일 NVL72 도메인)을 원자 단위로 취급해 한 블록 내에 들어오는 요청은 절대 분할하지 않는다. 18노드 이하 작업은 반드시 하나의 블록 안에서만 자원이 할당되므로, NVLink 대역폭을 온전히 활용할 수 있다.

Close-up view of modern rack-mounted server units in a data center. — 사진: panumas nikhomkhai / Pexels

유연성을 높이기 위해 `–segment` 인수도 도입됐다. 이 파라미터는 NVLink 연결이 반드시 필요한 최소 노드 그룹 크기를 지정한다. 예를 들어 12노드 작업에 `–segment=4`를 지정하면 세 개의 서로 다른 블록에 각 4노드씩 분산 배치가 허용돼, 단일 블록에 12개의 유휴 노드가 모일 때까지 대기할 필요 없이 즉시 실행될 수 있다. 텐서 병렬성(Tensor Parallelism)처럼 지연 시간에 민감한 통신은 작은 세그먼트로, 전문가 병렬성(Expert Parallelism)처럼 올투올(all-to-all) 집합 연산이 필요한 경우는 큰 세그먼트로 지정함으로써 워크로드 특성에 맞는 최적 배치를 달성할 수 있다. Slurm 25.11에서는 `–consolidate-segments`와 `–spread-segments` 옵션도 추가돼 세그먼트 배치 전략을 더욱 세밀하게 제어할 수 있게 됐다.

GB200 NVL72 클러스터를 운영하는 관리자에게 권장되는 설정은 NVL72 도메인 하나(18노드)를 블록 하나로 정의하는 것이다. 이 구성에서 `–segment` 없이 18노드 이하 작업을 제출하면 Slurm은 자원이 충분한 단일 블록을 확보할 때까지 대기열에 유지하며 블록 간 분할을 허용하지 않는다. 에이전틱 AI와 대규모 언어 모델 훈련·추론 수요가 폭발적으로 증가하면서 GB200 NVL72 같은 랙 단위 초고대역폭 플랫폼 도입이 가속되고 있으며, 이에 맞는 스케줄러 최적화 기법이 실제 클러스터 효율을 좌우하는 핵심 운영 역량으로 자리잡을 전망이다.