휴머노이드 테니스 랠리 성공의 비밀: 불완전한 데이터와 State Estimation의 한계


휴머노이드가 테니스를 치는 영상을 처음 봤을 때, 아마 많은 분들이 “드디어 SF 영화가 현실이 되는구나”라고 생각하셨을 겁니다. 저 역시 최근 칭화대와 Galbot 연구진이 발표한 ‘LATENT’ 프로젝트 영상을 보며 꽤 깊은 인상을 받았습니다. Unitree G1 휴머노이드가 날아오는 공을 정확히 타격하고 랠리를 이어가는 모습은 시각적으로 매우 훌륭합니다.

하지만 현업에서 로보틱스나 제어 시스템을 다뤄본 엔지니어라면, 화려한 데모 영상 이면에 숨겨진 ‘진짜 기술적 과제’와 ‘한계점’에 눈길이 가기 마련입니다. 오늘은 이 LATENT 논문이 어떻게 불완전한 데이터로 이 정도의 퍼포먼스를 냈는지 분석해 보고, Hacker News 커뮤니티에서 오갔던 날카로운 지적들을 바탕으로 현재 로보틱스 기술의 현주소를 짚어보겠습니다.

완벽한 데이터는 없다: 불완전함을 활용하는 방법

일반적으로 로봇에게 복잡하고 동적인 작업(예: 테니스)을 가르칠 때 가장 큰 병목은 데이터 수집입니다. 인간 선수가 실제 경기에서 보여주는 완벽하고 연속적인 모션 캡처 데이터를 얻는 것은 비용도 많이 들고 물리적으로도 매우 어렵습니다.

LATENT 팀의 핵심 인사이트는 바로 여기에 있습니다. 이들은 완벽한 경기 풀타임 데이터 대신, 불완전한 모션 조각을 활용했습니다. 포핸드, 백핸드 스윙 같은 기본적인 원시 스킬(primitive skills) 데이터만으로 학습을 시작한 것이죠.

  • Prior Knowledge: 불완전하더라도 이 데이터들은 테니스라는 환경에서 인간이 어떻게 움직이는지에 대한 강력한 사전 지식(prior)을 제공합니다.
  • Correction and Composition: 연구진은 이 원시 스킬들을 단순히 모방하는 데 그치지 않고, 강화학습(RL)을 통해 다양한 공의 궤적과 타겟 위치에 맞게 모션을 보정하고 조합하는 Policy를 학습시켰습니다.
  • Sim-to-Real Transfer: 시뮬레이션 환경에서 학습된 Policy를 실제 Unitree G1 로봇에 성공적으로 이식하기 위해 다양한 Robustness 설계를 추가했습니다.

결과적으로 이 접근법은 데이터 수집의 난이도를 기하급수적으로 낮추면서도, 실제 환경에서 사람과 랠리가 가능할 정도의 안정성을 확보했습니다. 과거 우리가 자율주행 모델을 학습시킬 때 엣지 케이스 데이터를 모으느라 고생했던 것을 생각하면, 이런 식의 컴포넌트 단위 학습 후 조합하는 방식은 꽤 우아한 해결책입니다.

State Estimation: 데모의 환상과 현실

하지만 이 시점에서 비판적인 시각을 가져볼 필요가 있습니다. Hacker News의 한 유저가 남긴 코멘트가 제 생각과 정확히 일치했습니다.

“거의 모든 closed-loop 로보틱스는 State Estimation 문제입니다. 상태를 충분히 잘 추정할 수 있다면 Control은 이미 풀린 문제나 다름없습니다.”

영상 속 로봇은 테니스를 아주 잘 치지만, 이 시스템은 로봇에 내장된 온보드 카메라(Vision)로 공의 궤적을 계산하는 것이 아닙니다. 외부의 고속 Mocap 카메라들이 로봇과 공의 정확한 3D Pose를 실시간으로 추적하여 Policy에 먹여주고(feed) 있습니다.

인간처럼 오직 두 눈(온보드 카메라)에 의존해서 날아오는 공의 속도, 스핀, 궤적을 예측하고 자신의 관절을 제어하는 것은 차원이 다른 문제입니다. 엄청난 Latency와 Occlusion 현상을 극복해야 하기 때문이죠. 따라서 이 데모는 인지(Perception) 문제가 완벽히 통제된 랩 환경에서의 제어(Control) 데모로 보는 것이 타당합니다.

완벽한 테니스 로봇은 사람을 닮지 않았다?

또 하나 흥미로웠던 토론 주제는 “완벽한 로봇은 어떻게 테니스를 칠까?”였습니다. LATENT는 Imitation Learning을 기반으로 하기 때문에 로봇의 움직임이 다소 엉성한 사람처럼 보입니다. 스플릿 스텝(split-step)을 밟거나 불필요한 예비 동작을 하기도 하죠.

하지만 진정한 AI 테니스 머신이라면 굳이 근육을 활성화하기 위해 스플릿 스텝을 밟을 필요가 없습니다. 최소한의 풋워크로 최적의 위치로 이동한 뒤, 인간의 손목 구조로는 불가능한 기괴한 각도로 라켓을 회전시켜 완벽한 타격을 만들어낼 것입니다. 어쩌면 우리는 인간을 닮은 로봇을 만드는 데 너무 집착한 나머지, 기계만이 가질 수 있는 물리적 효율성을 놓치고 있는 것일지도 모릅니다.

과대광고와 현실 사이

HN 스레드에는 18개월 내에 집안일을 하는 범용 로봇이 나올 것이라는 낙관론과, 이건 그저 제한된 랩 환경의 단일 태스크일 뿐이라는 회의론이 팽팽하게 맞섰습니다. 심지어 테슬라 옵티머스는 느릿느릿 움직이면서도 아무것도 못하는데, 왜 중국산 저가 휴머노이드가 이런 걸 하느냐는 자조 섞인 농담도 있었습니다.

제 결론은 이렇습니다. LATENT는 불완전한 데이터 공간에서 유의미한 물리적 제어 Policy를 뽑아내는 훌륭한 연구입니다. 하지만 이것이 곧바로 세탁기를 돌리고 요리를 하는 General Purpose Robot으로 이어지지는 않습니다. 실생활의 수백만 가지 엣지 케이스와 Unstructured Environment를 해결하려면, 결국 외부 Mocap 없이 온보드 Vision-Language-Action 모델이 실시간으로 동작해야 합니다.

우리는 분명 SF 시대의 초입에 서 있습니다. 하지만 엔지니어로서 우리는 마케팅 용어와 실제 기술의 한계를 명확히 구분해야 합니다. 당장 내년에 로봇이 제 옷을 개어줄 것이라 기대하진 않지만, 이런 단위 기술들이 쌓여 언젠가 그 티핑 포인트를 만들어낼 것이라는 점은 의심의 여지가 없습니다.


References