SERAF: 텍스트 설명을 결합한 RAG 기반 시계열 예측 프레임워크 제안

시계열 예측 분야에서 RAG(검색 증강 생성) 방식을 적용하는 연구가 활발해지고 있는 가운데, 기존 방법이 가진 한계를 극복하는 새로운 프레임워크가 제안됐다. arXiv에 게재된 논문에서 연구팀은 SERAF(Semantics-Enhanced Retrieval-Augmented Forecasting)라는 멀티모달 이중 검색 프레임워크를 소개했다. 기존의 RAG 기반 시계열 예측 연구는 역사적 시계열 데이터 간의 수치적 유사도만을 검색 기준으로 삼아왔는데, 데이터의 통계적 특성이 시간에 따라 변하는 비정상성(non-stationarity) 환경에서는 이 접근법이 충분하지 않다는 것이 SERAF가 출발한 문제 인식이다.

SERAF는 수치 시계열과 그 데이터에서 자동 생성된 텍스트 설명이라는 두 가지 정보 채널을 동시에 활용해 역사적 패턴을 검색한다. 두 검색 채널에서 얻은 상호 보완적인 역사 패턴과 그에 대응하는 미래값을 선택적으로 조합해 예측에 활용하는 구조다. 연구팀은 7개의 실제 데이터셋을 대상으로 실험해 최신 베이스라인 모델 대비 수치적·의미적 시각을 연결하는 측면에서 효과적임을 확인했다고 밝혔다.

RAG는 본래 대규모 언어 모델이 답변을 생성할 때 외부 지식을 검색해 끌어오는 기법으로, 환각을 줄이고 최신 정보를 반영하는 데 효과적이라는 점이 입증돼 왔다. 시계열 예측 분야는 과거 패턴이 미래값 예측에 직접적인 단서가 된다는 점에서 이 검색 증강 아이디어를 자연스럽게 적용할 수 있는 영역으로 주목받았다. 그러나 시장 충격이나 정책 변화처럼 데이터의 통계 구조가 급격히 바뀌는 상황에서는 단순히 수치 곡선이 비슷한 과거 구간을 찾아오는 것만으로는 적절한 참조 패턴을 확보하기 어렵다는 한계가 지적돼 왔다. SERAF는 이 지점에서 수치만으로 포착하기 힘든 맥락을 텍스트 설명이라는 별도 채널로 보완하려는 시도다.

이 연구는 언어 모델이 생성하는 텍스트 설명이 순수 수치 데이터만으로는 잡기 어려운 맥락적 패턴을 담을 수 있다는 점에 착안한 것으로, 시계열 예측에 언어 모델의 의미 정보를 융합하는 멀티모달 접근법의 가능성을 탐구한 성과다. 금융, 에너지, 물류 등 시계열 데이터가 핵심인 국내 산업 영역에서도 RAG 기반 예측 기술의 실용적 적용에 참고가 될 수 있다.