GPU 기반 미분 가능 시뮬레이터 DiffAero로 드론 제어 정책 학습 효율화

쿼드로터(quadrotor) 드론의 제어 정책을 효율적으로 학습하기 위한 GPU 가속 미분 가능 시뮬레이션 프레임워크 ‘DiffAero’가 공개됐다. 이 프레임워크는 가볍고 완전히 미분 가능한 구조로 설계됐으며, 환경 수준과 에이전트 수준 병렬화를 모두 지원한다. 여러 동역학 모델과 맞춤형 센서 스택(IMU, 깊이 카메라, 라이다)을 통합하고, 다양한 비행 작업을 단일 GPU 기반 학습 인터페이스 안에 묶어 처리할 수 있다.

DiffAero의 가장 큰 기술적 특징은 물리 연산과 렌더링을 모두 GPU에서 처리해 CPU와 GPU 사이의 데이터 전송 병목을 없앴다는 점이다. 이를 통해 시뮬레이션 처리량을 기존 시뮬레이터 대비 대폭 향상했다고 연구진은 설명했다. 또한 단순 고성능 시뮬레이터 역할에 그치지 않고, 미분 가능 알고리즘과 하이브리드 학습 알고리즘을 탐구할 수 있는 연구 플랫폼으로도 기능한다. 벤치마크 실험과 실세계 비행 실험 결과, DiffAero와 하이브리드 학습 알고리즘을 결합하면 소비자용 하드웨어에서도 몇 시간 안에 강인한 비행 정책을 학습할 수 있음을 확인했다.

A sleek quadcopter drone captured mid-flight outdoors, showcasing modern technology. — 사진: Darrel Und / Pexels

드론 제어 분야에서 강화학습을 비롯한 데이터 기반 접근법이 확산되면서, 현실과 유사한 물리 환경을 빠르게 모사하는 시뮬레이터의 역할이 커지고 있다. 시뮬레이션과 실제 환경의 간극을 줄이는 ‘sim-to-real’ 문제는 로봇 제어 연구에서 핵심 과제로 꼽히는데, DiffAero는 미분 가능성을 활용한 구배 기반 학습 기법을 드론 제어에 적용할 수 있는 기반을 제공한다.

로봇 학습에서 시뮬레이터를 미분 가능하게 만드는 것은 단순한 속도 향상 이상의 의미를 가진다. 환경 자체가 미분 가능하면 시행착오에 의존하는 강화학습과 달리 오차를 정책에 직접 역전파해 더 빠르고 안정적으로 제어 정책을 다듬을 수 있기 때문이다. 다만 이런 방식이 실제 비행체의 복잡하고 불연속적인 동역학에서도 일관되게 작동하는지는 여전히 검증이 필요한 영역으로, 연구진이 강조한 소비자용 하드웨어 수준의 접근성은 더 많은 연구자가 이 문제에 뛰어들 길을 넓힌다는 점에서 주목된다. 코드는 공개 저장소를 통해 이용할 수 있다.