LFM2 모델, QLoRA·DPO 결합 파인튜닝 전체 코드 공개

Liquid AI의 LFM2 모델을 Google Colab에서 파인튜닝하는 완전한 오픈소스 워크플로가 2026년 6월 공개됐다. QLoRA(양자화 저순위 적응)로 GPU 메모리를 4비트로 줄인 뒤, TRL과 PEFT 라이브러리를 활용해 지도 학습 파인튜닝(SFT)과 DPO(직접 선호도 최적화)를 순차 적용하고, 최종적으로 LoRA 어댑터를 기본 모델에 병합해 배포 가능한 단일 체크포인트를 만드는 전 과정이다.

파이프라인은 네 단계로 구성된다. 첫째, BitsAndBytesConfig로 nf4 4비트 양자화를 적용해 기본 모델을 로드한다. 둘째, 소규모 대화형 데이터셋과 저순위(low-rank) LoRA 어댑터로 지도 학습 파인튜닝(SFT)을 진행한다. 셋째, 어댑터를 기본 모델에 병합해 fp16/bf16 체크포인트를 생성한다. 넷째, 선호도 쌍 데이터(chosen/rejected)를 사용해 DPO를 추가로 훈련하고 최종 모델을 저장한다. 튜토리얼은 SFT와 DPO 단계 각각에 맞춘 학습률과 DPO의 beta 같은 핵심 하이퍼파라미터 설정도 함께 제시한다.

A neat workspace featuring a laptop displaying Google search, a smartphone, and a notebook on a wooden desk. — 사진: Caio / Pexels

QLoRA는 풀 파인튜닝 대비 GPU 메모리 사용을 크게 줄이면서도 어댑터 병합 후에는 추론 오버헤드가 없다는 장점이 있다. DPO는 RLHF(인간 피드백 기반 강화 학습)보다 구현 복잡도가 낮으면서 응답 품질을 선호도 데이터 기준으로 직접 최적화한다. 전체 파이프라인에 필요한 설치 패키지는 transformers, trl, peft, datasets, accelerate, bitsandbytes이며 Colab 무료 GPU로 실행 가능하다.

LFM2는 Liquid AI가 개발한 모델 패밀리로, 기존 트랜스포머와 다른 선형 순환 아키텍처를 채택해 긴 컨텍스트 처리 효율이 높다고 알려졌다. 이번 튜토리얼은 LFM2의 실용적 커스터마이징 가능성을 보여주며, 전체 코드와 노트북은 공개돼 있어 자체 데이터셋과 태스크에 맞게 즉시 수정해 사용할 수 있다.