구글 딥마인드 출신의 강화학습(RL) 연구자 데이비드 실버가 새 AI 스타트업을 창업하고 11억 달러의 초기 투자를 유치했다. 기업가치는 51억 달러로 책정됐다. 실버는 알파고(AlphaGo)와 알파제로(AlphaZero)의 핵심 개발자로, 딥마인드에서 강화학습 연구팀을 이끈 뒤 유니버시티칼리지런던(UCL) 교수로 재직해 온 인물이다.
이번 투자는 세쿼이아캐피털과 라이트스피드벤처파트너스가 리드했으며, 구글과 엔비디아도 투자에 참여했다. 스타트업의 이름은 ‘Ineffable Intelligence’다. 시리즈A 단계임에도 불구하고 11억 달러라는 이례적인 금액이 투입된 것은 실버의 연구 이력과 회사가 제시한 비전에 대한 시장의 높은 기대를 반영한다.
회사의 목표는 인간 생성 데이터 없이 오직 강화학습만으로 지식을 스스로 발견하는 AI 시스템, 이른바 ‘슈퍼러너(SuperLearner)’를 구축하는 것이다. 알파제로가 바둑과 체스 규칙만 입력받고 자기 대국을 통해 스스로 학습해 세계 최강에 오른 방식을 보다 일반적인 도메인으로 확장하겠다는 구상이다. 인간 피드백에 의존하는 현재 대형언어모델(LLM) 훈련 방식과 본질적으로 다른 접근이다.
강화학습 기반 자율 학습 시스템은 인간의 편향과 지식 한계를 뛰어넘는 발견을 가능하게 할 수 있다는 기대를 받는다. 알파폴드가 단백질 구조 예측에서 수십 년 난제를 풀어낸 것처럼, 강화학습 기반 AI가 과학·의약·소재 분야에서 인간이 인지하지 못했던 패턴을 발견할 수 있다는 시나리오가 연구자들 사이에서 점점 진지하게 논의되고 있다.
딥마인드 출신 스타 연구자들의 잇따른 창업은 AI 연구의 무게중심이 빅테크 내부에서 독립 스타트업으로 분산되는 흐름을 보여준다. 한국 AI 생태계도 연구 역량이 산업 현장으로 연결되는 경로를 강화해야 할 시점이다. 세계 수준의 강화학습 연구 인력을 키우고, 이들이 창업과 산학 협력으로 이어질 수 있는 구조를 만드는 것이 중장기 과제로 부상하고 있다.


