OpenAI·Broadcom, LLM 추론 전용 ASIC 칩 Jalapeño 공동 발표

OpenAI와 반도체 기업 Broadcom이 LLM(대규모 언어 모델) 추론을 위해 설계된 ASIC(응용 특정 집적 회로) 칩 Jalapeño를 공동 발표했다. 이 칩은 OpenAI 연구진의 요구 사항과 미래 모델 로드맵을 토대로 Broadcom이 처음부터 새로 설계한 것으로, 개발 기간은 9개월이었다. 대형 데이터센터에 배치하는 것을 목표로 하며, 장기 프로젝트의 첫 세대라고 양사는 밝혔다.

OpenAI는 “초기 테스트에서 Jalapeño가 현재 최첨단 대비 전력당 성능을 크게 웃도는 결과를 보여줬다”고 밝혔다. 다만 성능 측정이 아직 완료되지 않았으며, 수개월 내 상세 기술 보고서를 발표할 예정이다. Broadcom은 이 ASIC이 기존 데이터센터에서 추론 시스템을 구동하는 범용 칩보다 현재 LLM 수요에 훨씬 특화돼 있다고 설명했다.

이번 협력은 AI 기업들이 엔비디아(NVIDIA) GPU 의존도를 줄이고 자체 하드웨어 생태계를 구축하려는 흐름의 일부로 해석된다. 구글의 TPU(텐서처리장치), 아마존 트레이니움(Trainium), 메타 MTIA에 이어 OpenAI도 자체 칩 로드맵을 공식화한 것이다. 특히 ChatGPT·Codex 등 수십억 건의 추론 요청을 처리해야 하는 OpenAI로서는 전력 효율이 높은 전용 칩이 운영 비용 절감과 직결된다. Broadcom은 여러 AI 업체를 위한 커스텀 실리콘 설계 경험을 바탕으로 OpenAI의 장기 모델 로드맵에 맞춤화된 칩을 공급한다는 전략이다.

범용 GPU 대신 추론에 특화된 ASIC을 택한 것은 비용 구조 측면에서 의미가 크다. 학습과 추론을 모두 소화하도록 설계된 범용 가속기는 유연하지만, 이미 학습된 모델을 대량으로 서비스하는 추론 단계에서는 불필요한 회로가 전력과 면적을 잡아먹는다. 추론 전용 칩은 이 부분을 덜어내 같은 전력으로 더 많은 토큰을 처리할 수 있어, 거대 모델을 상시 가동하는 사업자에게는 단가 경쟁력으로 직결된다. 최근 AI 기업들이 토큰 단위 운영비를 ‘생존 문제’로 꼽으며 저렴한 대안을 찾는 흐름과도 맞닿아 있다.

다만 이번 발표는 장기 프로젝트의 첫 세대라는 점에서 신중히 볼 필요가 있다. 성능 측정이 아직 끝나지 않았고 상세 기술 보고서도 향후 공개 예정이라, 실제 양산·배치 규모와 엔비디아 대비 총소유비용 우위는 후속 데이터로 확인돼야 한다. 자체 칩 설계와 파운드리 확보, 소프트웨어 스택 최적화까지 함께 풀어야 하는 만큼, OpenAI의 하드웨어 수직계열화가 어디까지 진전될지가 향후 관전 포인트가 될 전망이다.