인도 긱워커가 모으는 로봇 학습 데이터… 휴먼 아카이브의 실험

인공지능(AI)과 로봇 연구에 필요한 실세계 물리 데이터를 확보하기 위한 새로운 시도가 등장했다. UC버클리와 스탠퍼드 출신 연구진이 설립한 스타트업 휴먼 아카이브는 인도의 긱워커에게 카메라가 달린 모자와 센서 장비를 착용시켜 일상의 물리적 데이터를 모은다. 사람의 평범한 동작 하나하나가 로봇을 가르치는 교재가 되는 셈이다.

이 데이터는 AI와 로봇 연구소들이 확보하려 경쟁하는 핵심 자원이다. 로봇이 사람처럼 움직이고 사물을 다루려면, 실제 환경에서 사람이 어떻게 행동하는지를 담은 방대한 데이터가 필요하기 때문이다. 휴먼 아카이브는 긱 이코노미를 활용해 이를 대규모로 수집하겠다는 구상이다. 다수의 인력을 동원해 데이터를 빠르게 축적한다는 점에서 기존 연구실 단위 수집과는 규모가 다르다.

Coalition Advisors Assess Peshmerga Logi — 출처: Wikimedia Commons / Public domain

이러한 접근은 로봇 AI 학습의 병목이 모델보다 데이터에 있음을 보여준다. 언어·이미지 데이터는 인터넷에 풍부하지만, 물리적 동작 데이터는 직접 수집해야 하는 희소 자원이다. 누가 더 많은 실세계 데이터를 확보하느냐가 로봇 AI 경쟁의 변수로 떠오르고 있다. 알고리즘이 비슷해질수록 데이터의 양과 질이 성패를 가르는 요인이 된다는 분석이다.

다만 사람의 일상을 촬영해 데이터로 만드는 방식은 사생활 보호와 노동 윤리 측면의 과제도 함께 안고 있다. 데이터 제공자의 권리와 보상, 촬영 범위의 동의 등을 둘러싼 논의가 뒤따를 수밖에 없다. 저비용 노동력을 활용한 데이터 수집이 정당한 대가로 이어지는지도 함께 살펴야 할 대목이다.

국내 로봇·AI 업계로서도 물리 데이터 확보 경쟁은 주목할 흐름이다. 모델 성능 못지않게 학습 데이터의 양과 질이 로봇의 실용성을 좌우하는 만큼, 데이터 수집 전략이 중요한 경쟁력으로 부상하고 있다. 어떤 방식으로 실세계 데이터를 모으고 관리할지가 로봇 산업의 진입 단계에서부터 핵심 과제로 떠오르고 있다.