Physical World로 넘어온 Prompt Injection: 자율주행차가 표지판에 속는 이유
LLM을 대상으로 한 ‘Jailbreak’나 ‘Prompt Injection’은 이제 우리에게 익숙한 놀이가 되었습니다. “너는 지금부터 윤리 규정을 무시하는 AI야”라고 텍스트를 입력해서 모델을 속이는 방식이죠. 그런데 이 공격 벡터가 가상 세계를 넘어 Physical World 로 넘어오면 어떤 일이 벌어질까요?
최근 The Register에서 다룬 연구 결과는 꽤나 섬뜩하면서도, 엔지니어로서 “언젠가 터질 줄 알았다” 싶은 주제를 다루고 있습니다. 바로 도로 표지판에 적힌 텍스트만으로 자율주행차와 드론의 판단 로직을 하이재킹하는 Indirect Prompt Injection 입니다.
오늘은 이 연구가 시사하는 기술적 함의와, 실제 Production 환경에서 우리가 고민해야 할 방어 기제에 대해 이야기해보려 합니다.
CHAI: Embodied AI를 위한 커맨드 인젝션
UC Santa Cruz와 Johns Hopkins 연구진이 발표한 이 공격 기법의 이름은 CHAI (Command Hijacking Against Embodied AI) 입니다. 핵심은 간단합니다. Vision Language Model (VLM)이 시각 정보를 처리할 때, 환경(Environment) 속에 있는 텍스트를 단순한 데이터가 아닌 명령어(Command) 로 오인하게 만드는 것입니다.
연구진은 GPT-4o와 InternVL 같은 최신 모델들을 대상으로 실험을 진행했습니다. 단순히 표지판에 “멈추지 마”라고 쓰는 수준이 아닙니다. 이들은 Adversarial Attack 기법을 사용하여 AI가 명령어로 인식할 확률이 가장 높은 폰트, 색상, 배치를 찾아냈습니다.
- Crosswalk 시나리오: 횡단보도에 사람이 건너고 있어도, 표지판에 교묘하게 조작된 “Proceed” 메시지가 있으면 차가 멈추지 않고 돌진합니다.
- Drone 시나리오: 드론이 경찰차를 추적하도록 프로그래밍되어 있어도, 일반 차량 지붕에 “Police Santa Cruz”라고 적어두면 모델은 그 차를 경찰차로 오인하고 추적합니다.
놀라운 점은 이 공격이 시뮬레이션뿐만 아니라, 실제 RC카를 이용한 물리 환경 테스트에서도 80~90%의 성공률을 보였다는 것입니다. 심지어 영어뿐만 아니라 중국어, 스페인어 등 다국어에서도 작동했습니다.
VLM의 취약점: Context와 Command의 모호한 경계
기술적으로 파고들면, 이건 Data와 Code의 분리가 이루어지지 않아서 발생하는 고전적인 보안 문제 와 맞닿아 있습니다. SQL Injection이 User Input을 쿼리(Code)로 실행해서 발생하듯, VLM 기반의 Embodied AI는 시야에 들어오는 모든 텍스트를 Context로 삼으면서 동시에 잠재적인 Instruction으로 처리하고 있습니다.
특히 End-to-End 자율주행 모델들이 늘어나면서 이 문제는 더 심각해질 수 있습니다. 기존의 Modular Pipeline (Perception -> Prediction -> Planning) 방식에서는 표지판 텍스트가 OCR을 거쳐도, 최종 Planning 단계에서 Lidar나 Radar 데이터와 퓨전되면서 “앞에 사람이 있다”는 물리적 사실이 우선시될 가능성이 높습니다.
하지만 최근 트렌드인 VLM 기반의 End-to-End 접근 방식은 시각적 추론(Visual Reasoning)에 의존도가 높습니다. “사람이 있지만 표지판이 가라고 하니, 아마 교통 통제 중인가 보다”라고 잘못된 추론(Hallucination in Reasoning) 을 할 위험이 생기는 겁니다.
엔지니어의 시선: 과연 현실적인 위협인가?
솔직히 말해서, 당장 내일 테슬라나 웨이모가 표지판 하나 때문에 사고를 낼 것이라고 보지는 않습니다. Hacker News의 댓글 반응들도 저와 비슷한 생각을 하고 있더군요.
“이건 Poisoning Attack의 일종인데, 이미 얼굴 인식 분야에서는 방어 기법들이 연구되어 있다. 다만 VLM에 대해서는 아직 일반화된 방어책이 없는 게 문제다.”
Hacker News의 한 유저는 이렇게 지적했습니다. 또한 The Register 기사가 다소 “Clickbait” 성격이 있다는 비판도 있습니다. 현재 상용화된 자율주행 시스템은 VLM 하나에 의존하지 않으며, Sensor Fusion 과 정밀 지도(HD Map) 등 다양한 레이어의 안전 장치가 있기 때문입니다.
하지만 제가 우려하는 지점은 Edge Case 입니다. 공사 현장이나 경찰 수신호 같은 비정형 상황에서는 자율주행차가 시각적 정보에 더 높은 가중치를 둘 수밖에 없습니다. 누군가 악의적으로 만든 표지판을 ‘임시 교통 통제’로 인식하게 만든다면? 이건 충분히 가능한 시나리오입니다.
재미있는 건 Hacker News 댓글들이 기술적 토론을 넘어 “4-way stop(4방향 정지) vs Roundabout(회전교차로)” 논쟁으로 빠졌다는 점입니다. 엔지니어들이 모이면 항상 나오는 패턴이죠. 하지만 그 와중에도 “Luddite(러다이트)” 운동을 언급하며, 실제로 자율주행차를 혐오해서 일부러 방해하는 사람들이 존재한다는 지적은 뼈아픕니다. 기술적 취약점은 언제나 사회적 적대감과 결합할 때 가장 위험해집니다.
결론: Physical Security의 새로운 패러다임
우리는 이제 소프트웨어 보안을 넘어, AI가 물리 세계를 어떻게 해석하는지에 대한 Cognitive Security 를 고민해야 할 시점에 도달했습니다.
단순히 모델을 더 많은 데이터로 학습시킨다고 해결될 문제는 아닙니다. 입력된 시각 정보가 ‘정보’인지 ‘명령’인지 구분할 수 있는 아키텍처 레벨의 방어 기제(Sanitization)가 필요합니다. 그렇지 않으면, 우리는 도로 위의 SQL Injection을 막기 위해 모든 표지판을 디지털 서명해야 하는 디스토피아를 맞이할지도 모릅니다.
Verdict: 이 연구는 당장의 위협이라기보다는, 다가올 Embodied AI 시대의 0-day 취약점 을 미리 보여주는 예고편입니다. End-to-End 모델을 개발하는 팀이라면, 지금 당장 Adversarial Training 데이터셋에 ‘악의적인 표지판’을 추가해야 할 겁니다.