강화학습 기반 확률적 궤도 최적화, 화성 전이·로켓 착륙에 검증

연구팀이 확률적 제약 강화학습(chance-constrained reinforcement learning)을 기반으로 한 분포 무관 강건 궤도 최적화 프레임워크를 제안했다. 이 접근법은 초기 조건과 공정 잡음을 불확실성 원천으로 삼아 샘플링 가능한 임의의 확률 분포를 다룰 수 있어, 특정 분포 가정 없이 다양한 실제 우주비행 문제에 적용할 수 있다.

방법론의 구조는 오프라인에서 결정론적 기준 궤도를 먼저 산출하고, 강화학습을 사용해 그 기준에 대한 구조화된 아핀 폐루프 보정 법칙을 학습하는 방식으로 작동한다. 구체적으로는 전향 제어 보정과 시변 피드백 이득을 조합해 불확실성에 대응한다. 확률적 실행 가능성은 롤아웃 기반 상위 분위수를 통해 경험적으로 강제하며, 종단 분산은 공분산-실행 가능성 패널티로 조절한다.

A dramatic aerial shot capturing a rocket's liftoff from a launchpad in open fields. — 사진: SpaceX / Pexels

연구팀은 프레임워크를 성격이 다른 두 가지 궤도 설계 문제에서 검증했다. 첫 번째 사례는 3차원 다중 충격 지구-화성 전이 궤도 문제로, 가우스 불확실성 조건에서 기존 강건 궤도 최적화 방법과 비교한 뒤 유계 균일 불확실성 및 학습 중 접하지 못한 공정 외란 조건에서도 평가했다. 두 번째 사례는 확률적 대기권 내 핀포인트 로켓 착륙 문제로, 항력과 질량 소모, 활공각 제약이 포함된 단기 연속 추력 환경에서의 이식성을 검증했다. 두 문제 모두에서 동일한 강건화 구조를 재설계 없이 그대로 적용할 수 있었고, 상위 분위수 연료 비용 경쟁력을 유지하면서 확률적 실행 가능성을 보존한 결과를 얻었다.

우주비행 궤도 최적화에서 불확실성 처리는 오랜 과제였다. 기존 방법들은 가우스 잡음처럼 특정 분포를 가정하거나, 최악의 경우를 보수적으로 설계하는 방식에 의존해 실제 운용 환경의 다양한 불확실성을 완전히 반영하기 어려웠다. 이번 연구는 샘플링 가능한 임의의 분포를 허용하면서도 동일 프레임워크를 이종 문제에 재사용할 수 있음을 보여, 실용적 강건 궤도 계획의 범용성을 넓힌 사례로 평가된다.