LLM이 스스로 컴퓨터가 될 수 있을까: Percepta의 Transformer 내부 코드 실행 논문 리뷰와 기술적 의문점


최근 Hacker News를 뜨겁게 달군 Percepta의 블로그 글을 읽어보았습니다. 주제는 대규모 언어 모델이 단순히 텍스트를 예측하는 것을 넘어, 모델 내부에서 직접 프로그램을 실행할 수 있다는 내용입니다.

일반적으로 LLM이 수학적 계산이나 로직을 처리할 때 우리는 외부 Python REPL 등을 호출합니다. 이를 보통 Tool Calling 이라고 부르죠. 하지만 Percepta의 접근 방식은 완전히 다릅니다. 외부 도구에 의존하지 않고 Transformer의 Forward pass 내부에서 직접 코드를 실행한다는 것입니다.

15년 차 엔지니어로서 솔직한 심정을 말씀드리자면, 처음 이 글의 제목을 봤을 때는 엄청난 혁신이라고 생각했습니다. 하지만 기술적인 디테일을 파고들수록 제 안의 BS 탐지기가 강하게 울리기 시작했습니다. 과연 이 기술이 혁신인지, 아니면 그저 잘 포장된 마케팅인지 깊게 파헤쳐 보겠습니다.

어떻게 동작한다는 것인가? (기술적 원리)

이들이 주장하는 핵심 기술은 Attention 연산의 최적화입니다. 기존의 Attention은 시퀀스 길이에 따라 계산량이 기하급수적으로 증가하는 문제가 있습니다. Percepta는 Lookup head의 차원을 2차원으로 제한하여 이 문제를 해결했다고 주장합니다.

논문에 등장하는 핵심 아이디어는 다음과 같습니다. 2D 공간에서 Convex hull을 탐색하는 방식으로 Attention을 수행하면, 전체 토큰을 탐색할 필요 없이 O(k + log n)의 시간 복잡도로 줄일 수 있다는 것입니다.

Hacker News의 한 유저가 지적했듯, 이 기술의 진짜 핵심은 코드 실행 자체가 아니라 이 HullKV 라는 구조에 있습니다. 블로그 글에서는 다음과 같은 다소 비표준적인 코드로 이를 설명하고 있습니다.

gate, val = ff_in(x).chunk(2, dim=-1)

이들은 d_model을 36으로, n_heads를 18로 설정하여 정확히 헤드당 2D 차원을 갖도록 구성했다고 말합니다. 이를 통해 모델은 레지스터와 스택의 텍스트 표현을 추적하며 프로그램의 실행 상태를 유지할 수 있습니다.

뼈때리는 기술적 비판과 의문점

하지만 이 구조를 프로덕션 환경에 적용할 수 있을까요? 제 대답은 ‘아직은 절대 아니다’ 입니다. 그 이유는 다음과 같습니다.

첫째, 학습 디테일과 Loss function의 부재입니다. 블로그 글에서는 실행 과정이 Forward pass의 일부이기 때문에 전체 과정이 Differentiable 하다고 주장합니다. 즉, Backprop을 통해 학습이 가능하다는 것이죠. 하지만 이 주장은 굉장히 위험한 마케팅 용어입니다. 어떤 가중치든 Transformer 구조를 통과시킬 수는 있지만, 부분적으로 정답인 상태를 평가할 수 있는 연속적이고 미분 가능한 Loss function이 없다면 아무 의미가 없습니다. Sudoku 솔버나 WASM VM을 모델 가중치로 컴파일한 것인지, 아니면 End-to-end로 학습시킨 것인지에 대한 설명이 전혀 없습니다.

둘째, 왜 하필 WASM 인가? 모델 내부에서 실행할 타겟으로 WASM을 선택한 것도 의문입니다. WASM은 표현력 측면에서 매우 비효율적일 수 있습니다. 모델이 더 높은 수준의 계획을 세우는 것을 방해하고, 지나치게 미시적인 수준의 연산에만 갇히게 만들 위험이 있습니다.

셋째, 벤치마크의 부재입니다. 이들은 속도가 기하급수적으로 빠르다고 주장하지만, 도대체 무엇과 비교한 것인지 알 수 없습니다. 진정한 벤치마크라면 pydantic 기반의 최적화된 도구 호출 환경이나 Python 인터프리터와 비교했어야 합니다.

Hacker News 커뮤니티의 반응

Hacker News의 시니어 엔지니어들 역시 비슷한 반응을 보였습니다.

  • 긍정적 시각: 일부는 모델이 동적으로 로그 스케일의 Attention으로 전환하여 매우 빠르게 토큰을 생성하는 Focus mode의 가능성에 열광했습니다. 이는 Speculative execution 시스템에서 훌륭한 시스템 프리미티브가 될 수 있습니다.
  • 비판적 시각: 반면 대다수는 논문의 모호함을 지적했습니다. 수식은 없고 화려한 비유만 가득하다는 점, 그리고 글 자체가 LLM으로 작성된 전형적인 마케팅용 글 같다는 비판이 줄을 이었습니다. 비행기는 날개를 퍼덕이지 않는다는 식의 비유는 컴퓨터 과학을 이해하는 데 아무런 도움이 되지 않습니다.

결론 및 나의 생각

Percepta의 이번 발표는 Fast/Slow 하이브리드 아키텍처라는 측면에서 매우 흥미로운 연구 방향을 제시합니다. 모델이 스스로 논리적 실행을 내재화하려는 시도 자체는 훌륭합니다.

하지만 현업에서 당장 써먹을 수 있는 기술은 아닙니다. 엄밀한 수학적 증명, Loss function의 설계, 그리고 납득할 만한 벤치마크가 공개되기 전까지는 이 기술을 신뢰하기 어렵습니다. 현재로서는 잘 구축된 외부 Tool Calling 파이프라인이 훨씬 더 안전하고 예측 가능하며 디버깅하기 쉽습니다.

엔지니어로서 우리는 화려한 문장 뒤에 숨겨진 진짜 아키텍처를 볼 수 있어야 합니다. 이 기술이 단순한 장난감을 넘어 진짜 패러다임 전환이 될지, 아니면 잊혀질 논문 중 하나가 될지는 그들이 다음 논문에서 얼마나 투명하게 수학적 디테일을 공개하느냐에 달려 있습니다.

References