MIT 컴퓨터과학·인공지능 연구소(CSAIL) 연구팀이 대형 언어 모델(LLM)을 활용해 로봇이 모호한 명령을 이해하고 동작 계획에 필요한 환경 정보를 자동으로 선별하도록 하는 ‘Masked IRL’ 시스템을 개발했다. 이 접근법은 기존 방식보다 최대 5분의 1에 달하는 적은 시연 데이터로도 로봇이 사용자의 암묵적 선호를 학습할 수 있도록 한다. 해당 연구는 2026년 IEEE 국제로봇자동화학술대회(ICRA)에 발표될 예정이다.
시스템의 작동 방식은 두 단계로 나뉜다. 사용자가 로봇에게 물리적으로 동작을 가르치는 운동 시연(kinesthetic demonstration) 과정에서 로봇 센서가 주변 환경과 모든 동작 순서를 기록한다. 첫 번째 LLM은 이 궤적 데이터를 최단 경로와 비교해 동작의 의도를 파악하고, “가까이 있어”처럼 모호한 명령을 “테이블 표면에 가까이 있어”처럼 구체적으로 바꾼다. 두 번째 LLM은 환경의 각 세부 요소를 평가해 중요하면 1, 그렇지 않으면 0으로 표시하는 ‘마스킹’을 수행한다. 이렇게 선별된 정보만이 최종 동작 계획 알고리즘에 반영된다.

실험에서 이 시스템은 50회의 운동 시연만으로 훈련된 로봇 팔이 노트북을 피해 커피 머그잔을 테이블의 다른 위치로 옮기거나, 테이블 표면을 닦거나, 인간 손을 피하며 물건을 전달하는 과제를 수행했다. 비교 기준 모델보다 사용자가 명시하지 않은 선호를 정확히 파악하는 비율이 최대 15% 높았다. 또한 LLM이 불명확한 지시를 명료화한 경우 모호한 요청을 그대로 따르려 한 경우보다 성능이 더 좋았다. MIT CSAIL 박사 과정 연구원 민영 황은 “사용자가 작업의 모든 세부 사항을 일일이 설명하지 않아도 기계가 사용자가 진정으로 원하는 것을 파악할 수 있게 해 인간의 노력을 최소화하는 것이 목표”라고 설명했다.
연구팀은 향후 시스템에 카메라를 추가해 주변 환경을 시각적으로 인식하고, 특정 요소에 집중하거나 무시하는 방식을 더 동적으로 결정할 수 있도록 개선할 계획이다. 이 연구는 국방부와 Tata 그룹의 MIT 생성형 AI 영향 컨소시엄 지원을 받았다.














