LLM 코드 생성, 비주류 아키텍처에서 성능 급락 확인

대규모 언어 모델(LLM)의 코드 생성 능력이 GPU 가속 환경(파이토치, CUDA 등)과 범용 프로그래밍에서는 광범위하게 평가됐지만, CPU 기반 고성능 컴퓨팅(HPC) 분야에서 다양한 아키텍처에 걸친 병렬 코드 생성 능력은 충분히 연구되지 않았다는 문제 제기와 함께 새 벤치마크 코드젠벤치(CodegenBench)가 발표됐다. 연구팀은 x86_64, 선웨이(Sunway), 쿤펑(Kunpeng) 세 가지 하드웨어 플랫폼에서 효율적인 병렬 코드를 생성하는 능력을 종합적으로 평가하도록 이 벤치마크를 설계했다.

코드젠벤치는 기본 기준선을 제공하는 BLAS(Basic Linear Algebra Subprograms) 표준 루틴 106개와, 선웨이 및 쿤펑의 독자적인 슈퍼컴퓨팅 아키텍처에 맞춰 조정된 특수 연산 커널 각 20개로 구성됐다. 평가 결과 최신 LLM들은 x86_64처럼 공개 문서와 학습 데이터가 풍부한 아키텍처에서는 최적화된 코드를 생성하는 능력을 보였다. 그러나 공개 문서가 제한적이고 학습 데이터가 부족한 특수 슈퍼컴퓨팅 아키텍처에서는 성능이 크게 떨어지는 것으로 확인됐다. 연구팀은 이를 크로스 플랫폼 일반화(cross-platform generalization)의 핵심 한계로 규정했다.

코드 품질에 영향을 미치는 요인도 분석됐다. 구현 길이와 태스크 복잡도를 기준으로 살펴보면, 현재 LLM들은 간결한 코드를 요구하는 중간 난이도 문제에서 가장 효과적이었다. 연구팀은 데이터셋과 자동화된 평가 인프라를 오픈소스로 공개해 LLM 기반 고성능 코드 생성 연구를 촉진하겠다는 계획을 밝혔다.

이 연구는 LLM의 코드 생성 능력이 학습 데이터의 분포에 크게 의존한다는 점을 실증적으로 보여준다. 도메인 특화 아키텍처에서의 한계는 과학 연산, 기상 예측, 국방 등 비공개 특수 컴퓨팅 환경에서 LLM을 코드 생성 도구로 활용하는 데 제약이 될 수 있으며, 특수 아키텍처에 대한 학습 데이터 확보와 파인튜닝 전략에 대한 추가 연구가 필요하다는 시사점을 남긴다.