아마존이 데이터센터 네트워크 설계에서 돌파구를 마련했다며 지난해 말부터 자사 데이터센터에 새 기술을 조용히 배치해 왔다고 밝혔다. 핵심은 전통적인 정형 네트워크와 무작위 구조의 성능 이점을 결합한 준무작위(quasi-random) 설계다. 무작위 네트워크는 수십 년간 연구돼 왔지만 한 번도 대규모로 성공적으로 확장된 적이 없었는데, 아마존이 이 난제를 풀었다고 주장했다. 아마존웹서비스(AWS) 네트워크 엔지니어링 부사장 매트 레더(Matt Rehder)는 네트워크를 평탄화해 전통적 설계의 병목을 없앴으며 이를 대규모로 구현한 것은 자사가 유일하다고 말했다.
아마존은 이 설계를 지난달 발표한 논문 ‘RNG: 대규모 평탄형 데이터센터 네트워크’에서 공개했다. RNG는 회복탄력적 네트워크 그래프(resilient network graphs)의 약자로, 완전히 정형도 완전히 무작위도 아닌 구조를 가리킨다. 1980년대 중반 이후 통신망은 두세 층의 스위치와 라우터를 쌓은 팻트리(fat-tree) 구조가 주류였다. 신뢰성은 높지만 경직되고 비효율적이며 복잡한 실물 케이블 배선이 필요했다. 케이블은 네트워킹 최대 비용 중 하나로, 아마존의 전 세계 데이터센터를 잇는 광케이블은 2000만 킬로미터에 이른다. 지구에서 달까지 25번을 왕복하는 거리다.

2023년부터 이 문제에 매달린 AWS 연구진은 라우터 간 연결을 내부에서 섞어주는 ‘셔플박스(ShuffleBox)’라는 광학 장비를 새로 설계했다. 초기에는 영국 물리학자 로저 펜로즈의 비주기적 타일링에서 착안해 반복 패턴으로 평탄한 망을 만들려 했으나 안정성과 효율 모두 기대에 못 미쳤다. 연구진은 정형적인 부분을 무작위성으로 대체했을 때 더 나은 결과를 얻었고, 결국 “혼돈을 받아들인” 준무작위 방식을 채택했다. 일리노이대 어배너-섐페인 캠퍼스의 네트워킹 전문가 브라이튼 고드프리(Brighten Godfrey) 교수는 아마존이 이를 현실에서 쓰는 것은 주목할 만하다고 평가했다.
아마존은 RNG 설계로 데이터센터가 더 효율적이고 회복력 있게 바뀌었다고 밝혔다. 전통 네트워크 대비 라우터와 스위치를 69% 적게 쓰고, 데이터 처리량은 33% 높이며, 네트워크 전력 소비는 40%, 운영 비용은 27% 낮춘다는 것이다. 흥미롭게도 아마존은 이 기술을 생성 AI용으로 내세우지 않았다. AI 학습은 데이터 흐름이 중앙에서 조율돼 무작위 그래프에 들어맞지 않기 때문이며, 일상적인 데이터센터를 더 효율적으로 만드는 데 초점이 있다는 설명이다. RNG는 2024년 더블린 데이터센터에 처음 적용된 뒤 독일과 스페인으로 확대됐고, 지금은 새로 짓는 대부분의 데이터센터에 들어가고 있다. AI 시대 전력과 비용이 인프라의 핵심 변수로 떠오른 가운데, 이런 효율 개선은 한국 클라우드·데이터센터 업계에도 시사하는 바가 크다.


