텍스트 없는 언어 모델 학습: NCA가 제시하는 LLM 프리트레이닝의 새로운 패러다임


최근 LLM 씬에서 가장 큰 화두 중 하나는 ‘데이터 고갈(Data Wall)‘이다. 2028년이면 고품질의 자연어 데이터가 바닥날 것이라는 예측이 지배적이며, 이를 극복하기 위해 온갖 합성 데이터(Synthetic data) 생성 기법들이 쏟아져 나오고 있다.

하지만 자연어 데이터에는 근본적인 문제가 하나 더 있다. 바로 ‘추론(Reasoning)‘과 ‘지식(Knowledge)‘이 지저분하게 얽혀 있다는 점이다. 인터넷 텍스트로 모델을 학습시키면 모델은 논리적 구조를 학습하기보다, 단순히 단어들의 동시 발생 확률(Co-occurrence)이나 인간의 편향적인 패턴을 암기하는 시맨틱 숏컷(Semantic shortcuts)에 빠지기 쉽다.

솔직히 처음 이 논문을 접했을 때, 또 다른 그저 그런 텍스트 기반 합성 데이터 논문이겠거니 했다. 하지만 내부 아키텍처를 뜯어보고 나서는 내 생각이 완전히 틀렸다는 것을 깨달았다. 이들은 텍스트를 아예 배제하고, 추상적인 동적 시스템인 Neural Cellular Automata(NCA)를 이용해 모델에게 ‘추론하는 방법’ 그 자체를 가르쳤다.

NCA로 언어 모델을 학습시킨다고?

이 논문의 핵심 아이디어는 매우 우아하다. 콘웨이의 생명 게임(Conway’s Game of Life)을 생각해보자. 단순한 규칙 몇 가지로 엄청나게 복잡한 패턴이 만들어진다. 연구진은 이 고정된 규칙 대신 무작위로 샘플링된 Neural Network를 전이 규칙(Transition rule)으로 사용했다.

작동 방식은 다음과 같다.

  1. 랜덤하게 초기화된 신경망이 고유한 규칙을 정의한다.
  2. 이 규칙을 그리드 상에서 길게 펼쳐(Unroll) 다양한 시공간적 동적 패턴을 생성한다.
  3. 생성된 궤적을 Vision Transformer(ViT)처럼 2x2 패치로 토큰화한다.
  4. 이를 표준 Transformer 모델에 넣고 Next-token prediction을 수행한다.

이 접근법이 미친 듯이 똑똑한 이유는, 모델에게 주어지는 시퀀스에 그 어떤 의미론적(Semantic) 정보도 없다 는 것이다. 텍스트가 없으니 암기할 꼼수도 없다. 모델이 다음 토큰을 맞추려면 오직 컨텍스트 내에서 숨겨진 규칙(Latent rule)을 역산해 내야만 한다. 즉, In-context learning 능력을 강제로 주입받게 되는 것이다.

Attention과 MLP의 역할 분리

내가 이 논문에서 가장 감탄한 부분은 구조적 분석 결과다.

연구진은 NCA로 Pre-pre-training된 모델을 자연어, 수학, 코드 도메인으로 전이 학습(Transfer learning) 시켰을 때, 놀라운 사실을 발견했다. Attention 레이어는 도메인을 넘나들며 전이되는 연산의 기본 단위(Computational primitives)를 학습하는 반면, MLP 레이어는 도메인 특화 지식을 저장한다는 것이다.

이 현상은 모델 내부에서 Induction heads(이전 시퀀스의 패턴을 복사해 적용하는 Attention 회로)가 형성되는 과정과 완벽하게 맞아떨어진다. 자연어로 학습을 시작하면 의미론적 정보 때문에 Induction heads의 형성이 지연되지만, NCA 데이터는 오직 이 회로를 구축하는 데에만 보상을 주기 때문에 훨씬 더 빠르고 견고하게 추론 엔진을 만들어낸다.

실제로 164M 토큰이라는 동일한 예산 하에서, NCA Pre-pre-training은 맨바닥부터 학습한 모델이나 C4 데이터로 학습한 모델을 압도했다. 심지어 C4 데이터를 10배(1.6B 토큰) 더 때려 부어도 NCA가 1.4배 더 빠르게 수렴하고 최종 Perplexity도 5% 더 낮았다. 무식하게 데이터를 쏟아붓는 것보다 데이터 생성기의 복잡도를 튜닝하는 것이 훨씬 효율적이라는 뜻이다.

Hacker News 커뮤니티의 반응과 나의 생각

이 논문이 HN에 올라왔을 때 커뮤니티의 반응도 꽤나 뜨거웠다. 특히 몇몇 댓글들은 내가 평소에 하던 생각과 정확히 일치했다.

  • 시각 피질과의 유사성: 한 유저는 Shadertoy에서 찾은 3D 프랙탈을 ViT에 먹이는 유사한 프로젝트를 언급하며, 생명체의 시각 피질 발달 과정이 이런 피드백 루프와 유사할 것이라는 가설을 제시했다. 제브라피쉬의 신경계 성장 과정과 비교한 부분은 매우 통찰력 있었다.
  • 선천적 본능 (Pre-trained weights): 논문의 “인간의 편향 없이 추론을 배우게 한다”는 비전에 대해, 유기체는 태어날 때부터 어느 정도 자연에 대한 이해를 가지고 태어난다는 반론이 있었다. 바다거북이 부화하자마자 바다로 기어가는 ‘본능’을 언급했는데, 이는 생물학적 관점에서 볼 때 완벽한 Pre-trained weights 모델이다.

우리는 지금껏 LLM을 백지상태(Tabula rasa)의 아기라고 생각하고 위키피디아와 레딧의 모든 글을 읽혀왔다. 하지만 이 논문이 시사하는 바는, 진정한 지능을 위해서는 언어를 가르치기 전에 먼저 뇌의 ‘논리 회로’를 배선(Hardwiring)해야 한다는 것이다.

결론 및 평가 (Verdict)

이 기술이 당장 내일 프로덕션 레벨의 GPT-5나 Claude 4 학습 파이프라인을 전면 대체할 것이라 생각하지는 않는다. 스케일링 법칙(Scaling laws)이 지배하는 현장에서는 여전히 수조 개의 자연어 토큰이 왕이기 때문이다.

하지만 장기적인 관점에서 볼 때, 이 연구는 모델 학습의 새로운 통제 축(Axis of control)을 열었다. 코딩을 잘하는 모델을 원한다면 단순한 동적 규칙의 NCA를, 수학이나 복잡한 추론을 원한다면 더 복잡한 NCA를 생성해 주입하면 된다.

더 이상 인터넷을 긁어모아 데이터의 질을 걱정하는 대신, 우리가 원하는 추론의 형태에 맞춰 합성 데이터의 구조를 설계하는 시대가 오고 있다. 단순한 장난감(Toy) 모델 실험을 넘어, Foundation model의 근본적인 아키텍처 초기화 방식으로 자리 잡을 가능성이 충분히 보이는 훌륭한 연구다.

References