바흐 스타일 심볼릭 음악 생성, AR·VAE·GAN 세 방식 비교

연구팀이 바흐 스타일 피아노 심볼릭 음악 생성을 위해 자기회귀(Autoregressive) LSTM, 잠재변수(Latent-Variable) 모델, 적대적 생성 네트워크(GAN) 세 가지 계열을 공통 MIDI 코퍼스로 비교 평가했다. 각 접근 방식의 강점과 실패 양상을 한 데이터로 견줘 본 연구다.

비교 대상 모델은 어텐션(attention)을 결합한 자기회귀 LSTM, 순환 VAE와 벡터 양자화 VAE를 포함한 잠재변수 모델, 그리고 GAN 세 계열이다. 다성부 음표 시퀀스를 모델링하는 능력, 유용한 잠재 표현을 학습하는 능력, 양식적으로 일관된 작곡을 생성하는 능력이라는 세 축에서 각 계열을 평가했다. 바흐의 다성부 건반 음악은 성부 간 규칙과 화성 진행이 엄격해 생성 모델의 구조 학습 능력을 가늠하는 시험대로 적합하다.

Close-up of a digital piano with sheet music on a stand, focused on keys and composition. — 사진: Tima Miroshnichenko / Pexels

실험 결과, 어텐션을 갖춘 자기회귀 LSTM이 세 모델 중 음악적 일관성 면에서 가장 우수한 샘플을 생성했다. 잠재변수 모델 계열에서는 벡터 양자화(vector quantization)가 일반 순환 VAE에 비해 사후 붕괴(posterior collapse)를 완화하고 더 구조화된 출력을 만들어냈다. 반면 GAN 계열은 바흐 스타일의 국소적 음고 패턴 포착에는 강했지만 훈련 안정성이 떨어지고 스타일 전반에 대한 일반화가 미흡했다고 연구팀은 밝혔다.

이 연구는 심볼릭 음악 생성이라는 제한된 도메인에서 세 주요 생성 모델 계열의 상대적 강점을 실증적으로 비교했다는 점에서 의의가 있다. 특히 자기회귀 방식의 높은 일관성과 GAN의 훈련 어려움은 텍스트·이미지 생성 연구에서 관찰된 패턴과 유사하며, 음악이라는 시계열 도메인에서도 같은 경향이 재현됨을 보여준다. 창작 AI 연구에서 음악 도메인의 정량적 평가 기준을 발전시키는 데 기여할 수 있는 결과다.