iPhone 17 Pro에서 400B LLM을 돌렸다고? 마케팅의 함정과 기술적 진실
최근 트위터와 해커뉴스(Hacker News)가 발칵 뒤집혔습니다. iPhone 17 Pro에서 무려 400B(4천억 개) 파라미터 규모의 LLM을 구동했다는 소식 때문이었죠.
시니어 엔지니어라면 이 헤드라인을 보자마자 헛웃음이 나왔을 겁니다. “아이폰 17 프로의 RAM은 고작 12GB인데, 400B 모델을 어떻게 올려? 물리적으로 말이 안 되잖아.”
맞습니다. 어느 정도 마케팅 용어와 과장이 섞여 있습니다. 하지만 그 이면에 숨겨진 기술적 접근 방식은 꽤 흥미롭습니다. 오늘은 이 ‘기적’이 어떻게 구현되었는지, 그리고 왜 당장 우리가 데이터센터를 버리고 스마트폰으로 갈아탈 수 없는지 엔지니어의 시각에서 파헤쳐 보겠습니다.
400B의 함정: MoE와 Active Parameters
먼저 모델부터 짚고 넘어가죠. 이들이 사용한 모델은 Qwen3.5-397B-A17B입니다. 이름에서 알 수 있듯 총 파라미터는 397B지만, Mixture of Experts (MoE) 아키텍처를 사용하여 토큰당 실제로 활성화되는 파라미터(Active Parameters)는 17B에 불과합니다.
즉, 400B 전체가 한 번에 메모리에 상주할 필요가 없다는 뜻입니다. 하지만 17B조차도 FP16이나 INT8 포맷으로는 12GB RAM에 들어가지 않습니다. 여기서 첫 번째 꼼수, 극단적인 Quantization(양자화)이 들어갑니다. 프로젝트 저장소를 보면 Q1, Q2 수준의 극단적인 양자화를 적용하여 모델의 크기를 억지로 구겨 넣은 것을 알 수 있습니다.
핵심 기술: SSD Streaming과 ‘LLM in a flash’
가장 중요한 기술적 성취는 바로 Storage Offloading입니다. 애플이 2023년에 발표한 ‘LLM in a flash’ 논문의 개념을 그대로 구현한 것이죠.
모든 Expert를 RAM에 올려두는 대신, 필요한 Expert Layer만 NVMe SSD에서 RAM으로 그때그때 스트리밍(Streaming)하는 방식입니다.
# 개념적인 MoE 라우팅 및 SSD 오프로딩 구조
def forward(token):
expert_id = router_network(token)
# 필요한 Expert가 RAM에 없다면?
if expert_id not in RAM:
# SSD에서 Expert 가중치를 동적으로 로드
load_expert_from_ssd_to_ram(expert_id)
output = experts[expert_id](token)
return output
이 패턴, 어디서 많이 보지 않으셨나요? 과거 메모리가 부족하던 시절의 Virtual Memory 페이징 기법과 동일합니다. 조금 더 현대적인 비교를 하자면, 게임 업계에서 언리얼 엔진의 Nanite나 Microsoft의 DirectStorage가 텍스처와 지오메트리를 SSD에서 VRAM으로 직접 쏴주는 것과 정확히 같은 철학입니다. iPhone 17 Pro에 탑재된 초고속 낸드 플래시 대역폭이 이를 가능하게 한 것이죠.
엔지니어의 시선: 이건 현실적인가?
솔직히 말해, 저는 이 데모를 ‘프로덕션 레벨’이라고 부르지 않겠습니다. 이건 훌륭한 PoC(Proof of Concept)이자 일종의 코드 골프(Code Golf)에 가깝습니다.
- Time to First Token (TTFT): SSD에서 가중치를 퍼올려야 하므로 첫 토큰이 나오기까지의 Latency는 끔찍할 수밖에 없습니다.
- Throughput (TG): 초당 생성되는 토큰 수 역시 실사용이 불가능한 수준입니다. 해커뉴스 댓글에서도 “llama.cpp로 SSD 오프로딩을 하면 가능은 하지만 속도는 심연(abysmal) 수준”이라는 지적이 정확히 이 부분을 꼬집습니다.
- Thermal Throttling: 가장 치명적인 문제입니다. 제 M2 iPad Air에서도 로컬 LLM을 돌리면 몇 초 만에 스로틀링이 걸리며 뜨거워집니다. 아이폰에서 SSD를 풀로드하며 NPU와 GPU를 갈구면 어떻게 될까요? 해커뉴스에서는 기기를 지퍼백에 넣고 얼음물에 담그자는 농담 반 진담 반의 수냉식 쿨링 아이디어가 나올 정도입니다.
결론: 클라우드의 종말? 아직은 아닙니다.
일부 사람들은 이 데모를 보고 “이제 거대한 데이터센터와 독점 모델의 시대는 끝났다”라고 주장합니다. 하지만 제 생각은 다릅니다.
이 기술이 증명한 것은 모바일 디바이스가 RAM의 물리적 한계를 고대역폭 스토리지를 통해 어느 정도 우회할 수 있다는 가능성입니다. 앞으로 모델 훈련 단계에서부터 Expert 전환 빈도를 줄이도록 유도하거나, OS 레벨의 파일 시스템 캐시를 더 영리하게 활용하는 방향으로 연구가 이어질 것입니다.
결국 일상적인 Edge AI 작업은 로컬에서 “충분히 좋은(good enough)” 수준으로 처리되는 미래가 오겠지만, 이를 위해서는 아직 아키텍처 차원의 엄청난 최적화가 필요합니다. 당장 내일 여러분의 회사 데이터센터 서버 전원을 내릴 필요는 없습니다.
References
- Original Article: https://twitter.com/anemll/status/2035901335984611412
- Hacker News Thread: https://news.ycombinator.com/item?id=47490070