오픈AI가 반도체 설계 기업 브로드컴(Broadcom)과 협력해 개발한 첫 번째 맞춤형 AI 추론 프로세서 ‘할라페뇨(Jalapeño)’를 공개했다. 이 칩은 사전 학습(pre-training)이 아닌 추론(inference) 단계, 즉 사용자 질의에 실시간으로 답변을 생성하는 과정에 특화 설계됐다고 알려졌다. 양사의 파트너십은 2025년 10월 체결된 것으로 전해진다.
할라페뇨 칩 개발 과정에서 오픈AI 자체 AI 모델이 칩 설계를 지원하는 데 활용됐다고 오픈AI 측은 밝혔다. 초기 성능 평가에서 전력 대비 성능 효율이 기존 주요 제품을 상회하는 결과가 나왔다는 주장이 나오고 있으나, 구체적인 수치는 공개되지 않았다. 오픈AI는 실시간 코딩 제어 모델 구동에 소요되는 운영 비용을 낮추는 데 이 칩이 기여할 것으로 기대하고 있다. 대규모 학습 등 고성능 연산이 필요한 영역에는 엔비디아 GPU 시스템을 병행 운용할 계획이라고 전해진다.
구글의 TPU, 아마존웹서비스(AWS)의 트레이니엄처럼 주요 빅테크가 독자 AI 가속기 칩을 도입하는 흐름은 이미 업계 표준이 됐다. 오픈AI가 할라페뇨로 자체 반도체 역량을 갖추게 되면 칩 아키텍처부터 메모리 시스템, 네트워크 프로토콜까지 인프라 전 계층을 자사 서비스에 최적화할 수 있게 된다. 이는 엔비디아 공급에 대한 의존도를 낮추고 데이터센터 운영 비용 구조를 개선하려는 장기 전략의 일환으로 분석된다.
특히 챗GPT 사용자가 급증하면서 추론 단계의 연산 비용은 오픈AI의 손익 구조를 좌우하는 핵심 변수로 떠올랐다. 학습은 한 번에 끝나지만 추론은 사용자 질의가 들어올 때마다 반복 발생하는 만큼, 추론 효율을 높이는 전용 칩은 대규모 서비스 운영사에 직접적인 비용 절감 수단이 된다. 다만 자체 칩 설계는 막대한 개발비와 검증 기간이 필요하고, 엔비디아가 구축한 소프트웨어 생태계를 단기간에 대체하기는 어렵다는 점에서 의존도 완화는 점진적으로 진행될 가능성이 크다. 이번 기사에서 인용한 구체적인 성능 수치와 비용 절감 전망은 오픈AI 공식 채널을 통한 교차 확인이 이뤄지지 않아 향후 공식 발표 내용으로 보완이 필요하다.














