랜덤 포레스트 트리 수 자동 결정하는 플래토 탐색 알고리즘 제안

랜덤 포레스트(Random Forest) 앙상블 모델에서 트리 개수를 자동으로 결정하는 새로운 방법론이 제안됐다. 해당 연구는 트리 수가 늘수록 예측 점수가 단조적으로 향상되는 특성 때문에 기존 HPO(하이퍼파라미터 최적화, Hyperparameter Optimization) 방법들이 탐색 범위 우측 경계 쪽으로 편향되는 문제를 해결하는 데 초점을 맞췄다. 연구팀은 플래토 탐색(plateau search) 알고리즘과 옵투나(Optuna) 프레임워크 연동을 결합한 접근 방식을 제시했다.

제안된 알고리즘의 핵심은 트리 수를 TPE(트리 구조 파르젠 추정기, Tree-structured Parzen Estimator) 탐색 공간에서 직접 다루지 않고, 세 가지 앙상블 크기에서의 OOB(아웃오브백, Out-of-Bag) 점수 상대 변화량을 모니터링해 충분한 앙상블 크기를 자동 식별하는 방식이다. 탐색 결과는 단일 허용 오차(tolerance) 파라미터로 해석할 수 있어 사용자 친화성을 높였다. 연구팀은 이 기준의 이론적 근거도 점근적 분산 분석을 통해 뒷받침했다.

Side view of crop anonymous pupil with pencil in hand answering questions of study test with diagrams while studying at table with brother at home — 사진: Jessica Lewis 🦋 thepaintedsquare / Pexels

실험 결과, 최적 트리 수가 일반적인 경험칙과 다른 경우가 많았다. 표준 벤치마크에서는 통상적인 추정보다 작은 값이 최적으로 나타난 반면, Arcene·Dorothea처럼 고차원 데이터셋에서는 상당히 큰 값이 필요했다. 이는 데이터 특성에 따라 트리 수를 동적으로 결정해야 한다는 점을 시사한다. 기존 조기 종료(early stopping) 전략이 점수 노이즈에 민감하거나 조기 종료 오류를 범하는 단점을 보완하는 방식이기도 하다.

랜덤 포레스트는 분류·회귀 과제에서 광범위하게 활용되는 앙상블 학습 기법으로, 하이퍼파라미터 튜닝 비용을 줄이는 실용적 방법론 연구가 지속적으로 이어지고 있다. 탐색 범위 사전 지정 없이 최적 트리 수를 자동 추정하는 이번 접근 방식은 대규모 AutoML 파이프라인에서의 활용 가능성을 높여줄 것으로 보인다.