허깅페이스, 1조 매개변수 가중치를 ‘Hub 버킷’으로 전송… 강화학습 비용 절감
허깅페이스가 1조 매개변수 모델의 가중치를 공유 Hub 버킷으로 전송해 비동기 강화학습 비용을 크게 낮추는 방식을 공개했다.
허깅페이스가 1조 매개변수 모델의 가중치를 공유 Hub 버킷으로 전송해 비동기 강화학습 비용을 크게 낮추는 방식을 공개했다.
알파제로를 만든 강화학습 선구자 데이비드 실버가 창업한 AI 스타트업이 기업가치 51억 달러로 11억 달러의 대규모 초기 투자를 유치했다.
강화학습 후처리의 최대 병목인 롤아웃 단계를 분포 인식 추측 디코딩으로 크게 단축하는 기법이 나왔다.
STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.