강화학습으로 2D 불규칙 중첩 문제 기하학적 풀다

2D 불규칙 중첩(nesting) 문제를 강화학습(RL)으로 풀어내는 새로운 접근법이 arXiv에 공개됐다. 기존 휴리스틱 방법론은 다각형의 실제 기하학적 형태를 반영하지 못하고 연속적 배치 공간을 안내 없이 탐색하는 한계가 있었는데, 연구팀은 강화학습이 이 병목을 극복할 수 있는 독보적인 위치에 있다고 주장한다.

연구팀은 최적화 정책과 기하학적 인식 신경 인코더를 결합하면 에이전트가 데이터로부터 직접 풍부한 기하학적 사전 지식을 자동으로 발견하고 이를 탐색 전략에 전략적으로 활용할 수 있다고 본다. 이를 구현하기 위해 연구팀은 2D 연속 벡터 기하학을 인코딩하면서 다각형 간 어텐션(attention)을 허용하는 새로운 아키텍처 ‘폴리곤스 트랜스포머(PoT, Polygons Transformer)’를 제안했다. 이 아키텍처는 조합 최적화 강화학습(CORL) 훈련 프레임워크와 결합돼, 에이전트가 복잡한 기하학적 사전 지식을 데이터에서 스스로 발견하고 탐색에 활용하도록 설계됐다.

Dynamic abstract composition of pink and blue geometric shapes with 3D depth. — 사진: Steve A Johnson / Pexels

실증 검증 결과, 훈련된 에이전트는 현재 최고 성능을 보이는 휴리스틱 솔버 ‘Sparrow’에 필적하는 면적 활용률을 달성했다. 이번 성과는 강화학습이 정밀한 공간 배치 과제에서도 기하학적 인식을 성공적으로 학습할 수 있음을 입증한다. 2D 불규칙 중첩 문제는 의류·금속 판재 절단·반도체 레이아웃 등 산업 전반에서 원자재 낭비를 줄이는 핵심 최적화 과제인 만큼, 학습 기반 해법의 현실적 적용 가능성을 높인 연구로 평가된다. 연구팀은 훈련 데이터셋과 평가 벤치마크를 오픈소스로 공개해 후속 연구를 지원하고 있다. 휴리스틱에 의존하던 기존 산업 솔버와 달리 데이터로부터 기하학적 배치 규칙을 스스로 학습한다는 점에서, 형태가 제각각인 부품을 빈틈없이 배치해야 하는 제조 현장의 자동화 수준을 한 단계 끌어올릴 가능성이 있다는 평가가 나온다.