Waymo World Model: 자율주행 시뮬레이션의 End Game인가?
최근 AI 씬(Scene)에서 LLM만큼이나 뜨거운 감자가 있다면 단연 World Model 일 겁니다. 단순히 텍스트를 뱉어내는 것을 넘어, 물리 법칙과 인과관계를 이해하고 다음 상태를 예측하는 모델이죠. Sora가 나왔을 때 다들 “와, 비디오가 진짜 같네”라고 했지만, 엔지니어들은 “이걸로 시뮬레이션을 돌릴 수 있을까?”를 먼저 생각했습니다.
그런데 Waymo가 이번에 그 답을 내놓았습니다. 바로 Waymo World Model 입니다.
Google DeepMind의 Genie 3를 기반으로 한 이 모델은, 단순히 예쁜 영상을 만드는 게 아닙니다. 자율주행의 가장 큰 병목인 ‘Long-tail Edge Case’ 검증을 생성형 AI로 해결하겠다는 야심 찬 선언입니다. 15년 넘게 시스템 설계를 해온 입장에서 볼 때, 이건 단순한 R&D 블로그 포스팅 이상의 의미가 있습니다.
오늘은 이 기술이 왜 중요한지, 그리고 Hacker News의 엔지니어들은 이걸 어떻게 보고 있는지 깊게 파보겠습니다.
1. Genie 3가 운전대를 잡으면 벌어지는 일
기본적으로 자율주행 업계의 시뮬레이터는 ‘게임 엔진’ 방식이 주류였습니다. Unreal이나 Unity 기반으로 객체를 배치하고 물리 엔진을 돌리는 식이죠. 하지만 이 방식은 현실 세계의 그 미묘한 잡음(Noise)과 복잡도를 100% 재현하기 어렵다는 한계가 명확했습니다 (Sim2Real Gap).
Waymo World Model은 접근 방식이 다릅니다. Generative Model 입니다.

핵심은 Multimodal Generation 입니다. 보통의 비디오 생성 모델은 RGB 픽셀만 만들어내지만, Waymo의 모델은 자율주행에 필수적인 Lidar Point Cloud 까지 함께 생성합니다. 이게 기술적으로 왜 어렵냐면, 2D 이미지의 픽셀 일관성을 유지하면서 3D 공간 정보(Depth, Geometry)까지 정합성을 맞춰야 하기 때문입니다.
- Emergent Knowledge: 수많은 인터넷 비디오 데이터로 학습한 Genie 3의 ‘상식’을 가져옵니다. Waymo가 직접 겪어보지 못한 상황도 시뮬레이션 가능하다는 뜻입니다.
- Sensor Fidelity: 단순 비디오가 아니라 Waymo 차량의 센서 스펙에 맞는 데이터를 뱉어냅니다. 즉, 이 모델이 뱉어낸 데이터를 그대로 자율주행 스택에 넣어서 테스트할 수 있다는 거죠.
2. Edge Case: 코끼리와 토네이도
엔지니어링에서 가장 골치 아픈 건 언제나 ‘재현 불가능한 버그’입니다. 자율주행에서는 그게 바로 Long-tail Scenario 죠.
Waymo는 블로그에서 아주 극단적인 예시들을 보여줍니다.
- 텍사스 롱혼 소 떼와의 조우
- 도로 한복판의 코끼리
- 홍수로 잠긴 주택가
이런 데이터는 실제 주행(Real-world driving)으로는 수집이 불가능에 가깝습니다. 테슬라가 수십억 마일의 주행 데이터를 자랑하지만, 그 데이터의 99.9%는 지루한 고속도로 주행일 뿐입니다. 정말 필요한 건 “토네이도가 불 때 라이다 센서에 잡음이 어떻게 끼느냐” 같은 데이터죠.
Waymo World Model은 텍스트 프롬프트나 장면 레이아웃 조작만으로 이런 상황을 생성해냅니다. “What if” 시뮬레이션이 가능해지는 겁니다. “만약 저 차가 갑자기 역주행을 했다면?” 같은 Counterfactual 시나리오를 무한대로 생성해서 모델을 검증할 수 있습니다.
3. Hacker News의 반응: Google의 수직 계열화가 무섭다
이 소식을 접한 Hacker News의 반응도 꽤 흥미롭습니다. 기술 자체보다는 Google/Alphabet의 인프라 파워 에 주목하는 시각이 많더군요.
한 유저는 이렇게 말합니다:
“갑자기 DeepMind가 왜 그렇게 World Model에 집착했는지 이해가 간다. 구글은 전력 발전부터 칩(TPU), 데이터센터, 로봇(Waymo), 그리고 거대 모델까지 모든 걸 수직 계열화했다. OpenAI나 Tesla와 비교해보면 체급이 다르다.”
사실 저도 이 부분에 동의합니다. Tesla가 FSD 데이터를 많이 가지고 있다고 하지만, Waymo는 High Fidelity Sensor Data (Lidar + Radar + Camera) 와 이를 처리할 수 있는 TPU 인프라, 그리고 DeepMind의 알고리즘 을 모두 쥐고 있습니다. 이 삼박자가 맞아떨어질 때의 파괴력은 무시할 수 없죠.
Lidar vs Vision 논쟁도 다시 불붙었습니다.
- Vision 진영 (Tesla): “사람도 눈으로만 운전한다. Lidar는 비싸고 불필요하다.”
- Lidar 진영 (Waymo/Volvo 등): “사람은 피곤해지거나 착각을 한다. 기계는 그러면 안 된다. Depth 정보는 타협할 수 없는 Safety Redundancy다.”
재미있는 건, Waymo가 이번 모델을 통해 “Lidar 데이터조차 생성해버리는” 수준에 도달했다는 겁니다. Vision-only로 학습하는 것보다, 합성된 Lidar 데이터로 3D 공간 지각 능력을 학습시키는 게 훨씬 효율적일 수 있다는 점을 시사합니다.
4. Tech Deep Dive: ‘Controllability’가 핵심이다
생성형 AI를 엔지니어링 파이프라인에 넣을 때 가장 큰 문제는 Hallucination(환각) 과 제어 불가능성 입니다. 예쁜 쓰레기를 만들면 소용이 없으니까요.
Waymo World Model은 세 가지 제어 방식을 제공한다고 합니다:
- Driving Action Control: 자율주행 차량의 조향/가속 입력에 따라 시뮬레이션이 반응합니다. (Interactive)
- Scene Layout Control: 신호등 위치, 차선 변경 등 환경 변수를 직접 수정합니다.
- Language Control: “눈 오는 날씨로 바꿔줘”, “새벽 시간대로 바꿔줘” 같은 자연어 명령입니다.
특히 Dashcam to Simulation 기능이 인상적입니다. 일반적인 블랙박스 영상을 넣으면, 그걸 Waymo Driver의 시점으로 변환해줍니다. 이건 Data Augmentation 관점에서 엄청난 이득입니다. 유튜브에 있는 수많은 사고 영상을 긁어다가 Waymo 시뮬레이터용 데이터로 변환할 수 있다는 뜻이니까요.
5. Verdict: 이것은 ‘게임 체인저’가 될 수 있을까?
솔직한 제 의견을 말씀드리자면, 이 기술은 자율주행의 ‘Last Mile’을 해결할 열쇠가 될 가능성이 높습니다.
지금까지 자율주행 경쟁은 “누가 더 많이 실제 도로를 달렸냐”의 싸움이었습니다. 하지만 이제는 “누가 더 효율적으로 가상 세계에서 코너 케이스를 학습했냐”로 넘어가고 있습니다. 실제 도로 주행은 비용도 비싸고, 위험하고, 무엇보다 희귀 케이스를 만나기 어렵습니다.
다만, 우려되는 점 도 분명 있습니다:
- Inference Cost: 이런 거대 모델을 실시간 시뮬레이션(Real-time)으로 돌리려면 엄청난 컴퓨팅 파워가 필요할 겁니다. Waymo 블로그에서도 ‘Efficient variant’를 언급한 걸 보면, 비용 최적화가 큰 과제일 겁니다.
- Physics Consistency: 생성 모델이 만든 물리 현상이 실제와 100% 일치한다고 보장할 수 있는가? 만약 시뮬레이터가 잘못된 물리 법칙을 학습시킨다면, 현실 세계에서 대형 사고로 이어질 수 있습니다.
결론적으로, Waymo는 다시 한번 자신들이 단순한 택시 회사가 아니라 Tech Company 임을 증명했습니다. Tesla가 ‘Real-world Data’의 양으로 밀어붙인다면, Waymo는 ‘Generative AI’를 통한 질적 고도화로 승부수를 던졌네요.
엔지니어로서 이 싸움, 팝콘 뜯으며 지켜볼 만합니다.