고전시 이해 특화 LLM, 베이스라인 대비 9.7% 성능 향상

연구팀이 고전 중국 시가(詩歌) 이해에 특화된 대규모 언어 모델(LLM)을 개발해 CCL25-Eval Task 5 벤치마크에서 베이스라인 대비 9.7% 성능 향상을 보고했다. 기존 연구 대부분이 시가 감상 과제를 일반 도메인 문제로 다루면서 시어의 독특한 표현 방식과 감성적·의미론적 구조를 간과해왔다는 문제의식에서 출발한 연구다.

연구팀은 과제를 용어 해석, 의미 해석, 감성 추론의 세 가지 하위 과제로 분해하고, 다수의 오픈소스 데이터셋을 정제·정렬해 4만 9,404개의 고품질 명령-응답 쌍으로 구성된 고전 중국 시가 명령 데이터셋(CCPoetry-49K)을 구축했다. 이 데이터셋은 해당 도메인에 맞게 명시적으로 최적화됐다. 연구팀은 이를 바탕으로 저랭크 적응(LoRA) 기법으로 Qwen2.5-14B 모델을 파인튜닝해 PoetryQwen이라는 도메인 특화 모델을 개발했다.

CCL25-Eval Task 5 벤치마크 실험 결과 PoetryQwen은 0.757 점수를 기록했으며, 이는 Qwen2.5-14B-Instruct 베이스라인(0.690)보다 9.7% 향상된 수치다. 연구팀은 고품질 도메인 특화 데이터셋 구축과 LoRA 파인튜닝의 조합이 고전 시가의 정확한 번역과 감성 이해 능력을 크게 끌어올릴 수 있음을 실험적으로 입증했으며, 이번 연구가 LLM의 도메인 특화 최적화 연구를 지원하는 새로운 데이터셋과 방법론적 기반을 제공한다고 밝혔다.

이번 연구는 범용 대규모 언어 모델이 시어의 함축과 정서적 결을 충분히 다루지 못한다는 한계를, 도메인 특화 데이터와 경량 미세조정 기법으로 보완할 수 있음을 보여준다. 과제를 용어 해석·의미 해석·감성 추론으로 분해한 접근은 막연한 ‘시 감상’ 과제를 측정 가능한 하위 문제로 구조화했다는 점에서 의미가 있다. 또 모델 전체를 다시 학습시키는 대신 저랭크 적응 방식으로 일부 가중치만 조정해 비용 부담을 낮춘 점은, 자원이 제한된 환경에서도 고전 문헌·전통 언어 같은 전문 영역에 LLM을 적용할 수 있는 현실적 경로를 제시한다.