AWS·NVIDIA, 아이작랩 기반 로봇 강화학습 클라우드 솔루션 공개

아마존 웹서비스(AWS)와 NVIDIA가 로봇 강화학습(RL) 훈련을 클라우드 관리형 인프라에서 실행하기 위한 통합 솔루션을 공개했다. 핵심은 NVIDIA 아이작 랩(Isaac Lab)을 아마존 세이지메이커 AI(Amazon SageMaker AI) 위에서 구동하는 구성으로, 유니트리 H1 휴머노이드 로봇이 거친 지형에서 보행하는 정책을 GPU 가속 시뮬레이션으로 학습시키는 예제가 함께 제공된다. 실물 환경 훈련이 느리고 비용이 높은 반면 GPU 병렬 시뮬레이션은 수개월 분량의 경험을 수 시간으로 압축할 수 있다는 점이 이 방식의 핵심 이점이다.

세이지메이커 AI는 두 가지 컴퓨팅 옵션을 제공한다. 아마존 세이지메이커 하이퍼팟(SageMaker HyperPod)은 영구형 분산 학습 클러스터로, 노드 장애 발생 시 자동으로 결함 노드를 교체하고 마지막 체크포인트에서 학습을 재개하는 자동 복구 기능을 갖춘다. EKS(Amazon Elastic Kubernetes Service) 또는 Slurm 기반 오케스트레이션을 지원하며, GPU 활용률·메모리 압력·네트워크 처리량 등 수백 가지 지표를 Grafana 대시보드로 시각화한다. 반면 세이지메이커 트레이닝 잡(SageMaker Training Jobs)은 요청 시점에만 GPU 인스턴스를 프로비저닝하는 에페머럴(ephemeral) 방식으로, 실험 단계의 짧은 반복 실행이나 하이퍼파라미터 탐색에 적합하다.

아이작 랩은 NVIDIA 아이작 심(Isaac Sim) 위에 구축된 오픈소스 로봇 학습 프레임워크로, 단일 또는 다중 GPU에서 수천 개의 로봇 인스턴스를 병렬 시뮬레이션한다. 공개된 솔루션의 훈련 태스크 `Isaac-Velocity-Rough-H1-v0`는 H1 로봇이 절차적으로 생성된 불규칙 지형 위에서 19개 관절을 협조 제어해 속도 명령을 추적하는 과제다. 학습 알고리즘은 PPO(근위 정책 최적화, Proximal Policy Optimization)를 skrl 프레임워크를 통해 사용한다. 분산 훈련 시 복수 노드에 걸쳐 병렬 환경 수가 늘어나 정책 업데이트당 수집되는 경험의 다양성이 높아져 수렴이 빨라진다.

이 솔루션은 단일 도커 이미지와 공유 설정 파일로 하이퍼팟과 트레이닝 잡 두 경로를 모두 지원하며, 실행 방식만 다를 뿐 동일한 torchrun 기반 skrl 트레이너가 구동된다. Isaac Sim은 RT 코어가 있는 G 계열 AWS GPU 인스턴스(ml.g5, ml.g6, ml.g6e, ml.g7e)에서만 작동하며, A100·H100 등 데이터센터 GPU가 탑재된 P 계열 인스턴스는 지원하지 않는다. 훈련 메트릭은 아마존 세이지메이커 관리형 MLflow로 실시간 추적되며, 완성된 코드와 설정 파일은 깃허브 저장소를 통해 공개됐다.