Donald Knuth, Claude, 그리고 LLM의 한계: 우리는 AI를 너무 과대평가하고 있다
최근 컴퓨터 과학의 살아있는 전설, 도널드 크누스(Donald Knuth) 교수의 이름이 박힌 페이퍼 하나가 화제를 모았다. 제목부터 무려 “Claude’s Cycles”다. 전설적인 학자가 최신 LLM인 Claude를 활용해 수학/알고리즘 문제를 풀었다는 소식에 테크 커뮤니티는 그야말로 열광했다.
하지만 해커뉴스(Hacker News)의 스레드를 깊게 파고들며 이 사안을 엔지니어의 시각으로 뜯어보니, 우리가 LLM을 대하는 태도에 대해 아주 현실적이고 뼈아픈 교훈들이 보였다. 15년 넘게 현업에서 온갖 하입(Hype)을 겪어본 입장에서, 이번 이슈를 통해 LLM의 진짜 가치와 한계를 짚어보려 한다.
환상 깨기: 클로드가 수학을 ‘증명’한 것이 아니다
솔직히 말해, 크누스 교수의 페이퍼 인트로는 다소 오해의 소지가 있다. 겉보기엔 클로드가 어려운 수학 문제를 뚝딱 풀어낸 것처럼 보이지만, 실상은 전혀 다르다.
클로드가 한 일은 엄청난 속도로 예제(example)들을 생성하고, 그 안에서 패턴을 찾아내는 노가다였다. 그리고 그 패턴들을 일반화하여 수학적으로 엄밀한 Formal proof를 완성한 것은 결국 크누스 교수 본인이었다. 나는 이것을 고차원 확률 분포를 활용한 브루트 포싱 이라고 부르고 싶다.
우리는 과거에 이런 탐색 작업을 위해 직접 코드를 짜고 휴리스틱을 돌려야 했다. 하지만 이제는 인류의 지식 패턴이 확률 분포로 구워진(baked) LLM을 활용해, 올바른 “주문(Summoning spell)“만 외우면 순식간에 탐색 공간을 좁힐 수 있게 된 것이다. 이것만으로도 엄청난 발전이지만, AI가 스스로 논리를 전개해 미지의 영역을 개척했다고 보기는 어렵다.
The Dumb Zone: 컨텍스트 윈도우의 저주
해커뉴스 스레드에서 한 유저가 공유한 일화가 내 눈길을 끌었다. 클로드와 함께 홀수 케이스를 성공적으로 해결한 뒤 짝수 케이스로 넘어갔는데, 어느 순간부터 클로드가 코드를 제대로 작성하지도, 실행하지도 못하는 이상 상태에 빠졌다는 것이다.
이른바 Dumb zone 에 진입한 것이다.
이건 시니어 엔지니어들이라면 숱하게 겪어본 메모리 누수나 GC Pause와 본질적으로 같다. LLM의 Context Window가 한계에 다다르면, Attention 메커니즘은 길을 잃고 환각(Hallucination)을 뿜어내거나 바보가 되어버린다. 최근 오픈 웨이트 모델들이 Hybrid attention 아키텍처를 통해 컨텍스트 윈도우의 메모리 비용을 극적으로 줄이고 백만 토큰까지 지원한다고는 하지만, 본질적으로 “상태(State)를 유지하는 방식”의 한계는 여전하다. 코파일럿 류의 툴들이 UI에 컨텍스트 사용량을 게이지로 보여주기 시작한 것도 이 한계를 사용자에게 인지시키기 위함이다.
전행성 기억상실증과 LLM의 지능
이번 스레드에서 가장 철학적이면서도 기술적인 통찰은 LLM을 전행성 기억상실증(Anterograde amnesia) 환자에 비유한 대목이었다. 유명한 H.M. 환자처럼, LLM은 과거의 기억(Training data)은 완벽하게 고정되어 있지만, 새로운 정보를 자신의 Weight에 장기 기억으로 새겨넣지 못한다.
우리가 RAG(Retrieval-Augmented Generation)를 붙이고 컨텍스트 윈도우를 늘리는 것은 훌륭한 엔지니어링 우회로지만, 모델의 코어 자체를 실시간으로 업데이트하는 Continual learning과는 거리가 멀다. 지능(Intelligence)이라는 것을 “과거를 분석해 미래를 대비하며 뇌의 구조를 실시간으로 재배선하는 능력”이라고 정의한다면, LLM은 여전히 지능이라 부르기엔 턱없이 부족한 정적인 타임 캡슐에 불과하다.
다가올 미래: 당신의 추론이 곧 그들의 학습 데이터다
그렇다면 Anthropic이나 OpenAI는 2030년에 어떻게 모델을 최신 과학의 경계선까지 업데이트할까? 매번 천문학적인 비용을 들여 처음부터 다시 학습시킬 것인가?
해답은 이미 우리 앞에 있다. 지금 우리가 치고 있는 프롬프트, 그리고 크누스 교수 같은 전문가들이 LLM과 핑퐁하며 문제를 해결해 나가는 그 추론 과정(Inference trace) 자체가 다음 세대 모델을 위한 최고급 고신호(High-signal) 데이터가 된다.
우리가 “무료” 혹은 싼 값에 API를 쓰는 동안, 빅테크들은 약관 37조 어딘가에 적힌 조항을 근거로 우리의 문제 해결 패턴을 수집해 RL(Reinforcement Learning) 스케일링에 쏟아부을 것이다. 합성 데이터(Synthetic data)의 성공이 이를 증명한다.
결론: 그래서 실무에 쓸 만한가?
“AGI가 올 것인가?” 같은 철학적 논쟁은 학자들에게 맡겨두자. 엔지니어인 우리가 집중해야 할 것은 이 도구의 실용성이다.
LLM은 아인슈타인처럼 새로운 상대성 이론을 툭 던져놓을 수 있는 마법의 상자가 아니다. 실험 데이터가 없는 미지의 물리 법칙을 스스로 깨우치지는 못한다. 하지만 크누스 교수처럼 어떤 질문을 던져야 할지 아는 시니어들에게 LLM은 수십 년간 쌓인 인류의 지식 기반을 순식간에 연결해주는 미친 성능의 엔진이다.
환상을 버리자. LLM은 지능이 아니라 극도로 고도화된 통계적 머신이다. 하지만 그 통계적 머신의 한계를 정확히 이해하고, Dumb zone을 피해가며, 적절한 RAG와 워크플로우를 설계해내는 것. 그것이 지금 우리 엔지니어들이 해야 할 진짜 일이다.
References:
- Original Article: https://www-cs-faculty.stanford.edu/~knuth/papers/claude-cycles.pdf
- Hacker News Thread: https://news.ycombinator.com/item?id=47230710