FactoryLLM, 스마트 팩토리 LLM 평가 오픈소스 공개…RAGAS·NVIDIA 이중 평가

스마트 팩토리 환경에서 다양한 LLM(대규모 언어 모델) 기반 RAG(검색 증강 생성) 모델을 안전하게 평가할 수 있는 오픈소스 플랫폼 ‘FactoryLLM’이 2026년 6월 12일 arXiv(논문 번호 2606.14119)에 공개됐다. 스마트 팩토리에서 장애 진단과 복구는 복잡한 과제인데, 핵심 정보가 제조 공정 전반에 걸쳐 여러 기계의 매뉴얼에 분산돼 있기 때문이다. LLM이 이 문제를 풀 유망한 접근법으로 꼽히지만, 어떤 LLM이 실제 산업 환경에 적합한지 객관적으로 검증하는 도구가 부재했다.

FactoryLLM은 제조 공정 전반의 여러 기계 문서를 분석해 LLM 기반 RAG 모델을 평가하는 환경을 제공한다. 사용자는 LLM을 자유롭게 설정하고 여러 문서에 걸친 추론 성능을 평가할 수 있다. 평가는 RAGAS와 NVIDIA의 LLM-as-a-Judge 지표를 함께 쓰는 이중 평가 체계로 진행된다. 핵심 안전 설계 원칙은 로컬 또는 오픈소스 LLM을 민감한 산업 데이터를 외부에 전송하지 않고 실행할 수 있다는 점이다. 이는 데이터 보안이 중요한 제조업체가 실험 환경을 통제하면서도 다양한 모델을 시험해볼 수 있게 한다.

A machine is moving a conveyor belt in a factory — 사진: Salvador Escalante / Unsplash

연구팀은 자율 지능 차량(Autonomous Intelligent Vehicle)과 모바일 플래너 소프트웨어를 대상으로 사례 연구를 수행했다. 약 600페이지 분량의 복수 기계 문서에서 도출한 30개 유지보수 쿼리에 세 종류의 LLM을 적용한 결과, 모든 모델이 0.88 이상의 근거성(groundedness) 점수를 달성했다. 이는 FactoryLLM이 기계 문서 간 교차 추론에서 유효한 평가 환경임을 보여주는 결과라고 연구팀은 밝혔다. 전체 코드와 문서는 제조업 특화 시나리오 테스트를 위해 커뮤니티에 공개됐다.

제조업 AI 도입이 확대되면서 어떤 LLM이 예측 유지보수, 품질 관리, 공급망 최적화 같은 산업 과제에 실제로 적합한지 검증하는 표준화된 벤치마크 수요가 높아지고 있다. FactoryLLM은 재현 가능한 오픈소스 평가 환경을 제공함으로써 산업 특화 LLM 연구를 가속할 기반이 될 수 있다. 다만 사례 연구가 단일 차량 플랫폼에 국한된 만큼, 더 다양한 제조 환경으로 검증 범위를 넓히는 후속 연구가 필요하다.