트랜스포머로 개방형 공정 스케줄링 푼다…DRL 기반 학습 정책 제안

인코더-디코더 아키텍처와 멀티헤드 어텐션을 결합한 트랜스포머(Transformer) 기반 심층 강화학습(DRL) 정책을 활용해 개방형 공정 스케줄링 문제(OSSP, Open Shop Scheduling Problem)를 해결하는 연구가 arXiv에 공개됐다. OSSP는 여러 공정 순서가 고정되지 않은 상황에서 총 처리 시간을 최소화하는 문제로, 산업 현장과 서비스 환경에 널리 나타나지만 작업 수와 기계 수가 늘어날수록 계산 복잡도가 급격히 높아지는 난제다. 기존 정밀 해법은 대규모 문제에서 실용성을 잃고, 고전적 디스패칭 규칙이나 메타휴리스틱은 해의 품질 유지를 위한 수작업 튜닝이 필요하다는 한계가 있었다.

연구팀은 처리 시간 행렬만을 입력으로 사용하는 트랜스포머 정책을 제안하고, 테일라드(Taillard) 벤치마크 인스턴스(4×4, 5×5, 7×7, 10×10 크기)를 이용해 훈련했다. 훈련 결과 생성된 스케줄의 최장 완료 시간(makespan)은 알려진 최적해의 15~30% 이내 수준이었다. 이후 별도 재훈련 없이 40×40부터 100×100까지 무작위 생성된 대규모 인스턴스에 정책을 적용했을 때, 표준 하한선 대비 평균 12.89~15.12%의 격차를 기록했다. 고전 디스패칭 규칙인 SPT, LPT, MWKR, EST 등과 비교했을 때 트랜스포머 정책은 EST와 비슷한 수준을 유지하면서 SPT와 LPT는 크게 앞섰다.

이 연구는 소규모 인스턴스로 훈련된 트랜스포머 정책이 상당히 큰 규모의 문제에도 재훈련 없이 일반화될 수 있음을 보여 준다는 점에서 의미가 있다. 학습 기반 정책이 입력 특성을 최소화하면서도 고전 디스패칭 규칙을 대체하는 가벼운 대안이 될 수 있음을 시사하며, 제조·물류 등 복잡한 공정 최적화 분야에 적용 가능성이 있다.