극소 데이터 환경에서 동역학 방정식 자동 발견, 능동 학습 기법 제안

복잡한 동역학계의 지배 방정식을 데이터로부터 식별하는 것은 과학과 공학 전반의 핵심 과제다. 최근 데이터 기반 방법들이 유연성을 높이고 가정을 줄이는 방향으로 발전했지만, 실제 환경에서 데이터 수집은 비용이 크다는 제약이 여전하다. 연구팀은 이 문제를 정면으로 다루며, 극소 데이터 환경에서 가장 정보량이 많은 영역을 반복적으로 우선 샘플링하는 능동 학습 전략을 제안했다.

제안된 방법은 비선형 동역학의 희소 식별(SINDy)을 기반으로 하며, 앙상블 확장판인 E-SINDy를 활용해 인식론적 불확실성을 추정하고 상미분방정식(ODE)과 편미분방정식(PDE) 모두에 대한 샘플링을 안내한다. ODE의 경우 로렌츠 시스템을 대상으로 다양한 데이터 예산과 노이즈 수준에 걸쳐 철저한 분석을 수행했다. PDE의 경우 날카로운 충격파 전면이 정보 풍부 영역과 그렇지 않은 영역을 구분하는 버거 방정식, 그리고 더 복잡한 공간적 샘플링 환경을 제공하는 쿠라모토-시바신스키 방정식이라는 동역학적 특성이 대비되는 두 시스템을 검토했다.

모든 시나리오에서 제안된 방법은 무작위 샘플링보다 현저히 적은 데이터 샘플로 지배 동역학을 정확히 식별하는 데 성공했다. 연구팀은 이 능동 학습 전략이 실제 과학 및 공학 응용에서 데이터 수집 비용을 줄이면서 동역학 발견의 정확성을 높이는 데 기여할 수 있다고 밝혔다.

이 연구가 겨냥하는 핵심은 ‘어디서 데이터를 모을지’를 모델 스스로 결정하게 만드는 데 있다. 실험을 한 번 돌리거나 센서를 설치하는 데 큰 비용이 드는 분야에서는 데이터를 무작정 많이 모으는 전략이 비현실적이다. 능동 학습은 불확실성이 큰 영역, 즉 모델이 가장 헷갈려하는 지점을 우선 측정해 같은 예산으로 더 많은 정보를 끌어낸다. 충격파처럼 정보가 집중된 구간과 그렇지 않은 구간이 뚜렷이 갈리는 물리계일수록 이런 선택적 샘플링의 효과가 두드러진다. 과학 발견을 데이터 기반으로 자동화하려는 흐름에서 비용 효율을 끌어올리는 한 갈래로 평가된다.