10KB 프롬프트로 수학의 본질을 압축하라: 테렌스 타오의 AI 증류 챌린지


15년 넘게 소프트웨어 엔지니어링을 하면서 수많은 신기술의 흥망성쇠를 지켜봤습니다. 최근 LLM을 프로덕션에 도입하려는 시도가 많아지면서 가장 많이 부딪히는 벽은 결국 비용과 레이턴시(Latency)입니다. GPT-4나 Claude 3.5 Sonnet 같은 프론티어 모델들은 훌륭한 추론 능력을 보여주지만, 수백만 건의 데이터를 처리해야 하는 백엔드 파이프라인에 태우기에는 API 비용이 감당이 안 되죠. 결국 우리는 Llama 3나 Mistral 같은 작고 저렴한 오픈소스 모델, 즉 SLM(Small Language Model)으로 눈을 돌리게 됩니다.

하지만 막상 이 작은 모델들에게 복잡한 논리적 추론이나 수학적 증명을 요구하면 결과는 처참합니다. 정답률이 50% 언저리, 즉 동전 던지기와 다를 바 없는 수준으로 떨어지기 때문입니다.

바로 이 지점에서, 우리 시대의 가장 위대한 수학자 중 한 명인 테렌스 타오(Terence Tao)가 매우 흥미로운 실험을 시작했습니다. SAIR Foundation과 함께 런칭한 Mathematics Distillation Challenge가 그것입니다.

Lean4, GOFAI, 그리고 2,200만 개의 데이터셋

테렌스 타오는 작년부터 ETP(Equational Theories Project)라는 프로젝트를 이끌어왔습니다. 이 프로젝트의 목적은 보편대수학(Universal Algebra)에 등장하는 수많은 방정식 이론들의 참/거짓을 판별하는 것이었습니다.

흥미로운 점은 이들이 문제를 푼 방식입니다. 이들은 인간의 직관에만 의존하지 않고, Lean4라는 자동화된 정리 증명기(Theorem Prover)와 전통적인 기호주의 AI, 즉 GOFAI(Good Old-Fashioned AI)를 결합하여 무려 2,200만 개의 참/거짓 문제를 공식적으로 검증해냈습니다.

프론티어 AI 모델들은 이런 문제를 꽤 잘 풉니다. 하지만 앞서 언급했듯, 이 모델들은 비싸고 그들이 어떻게 정답을 도출했는지 내부 논리를 파악하기 어렵습니다. 반면 저렴한 오픈소스 모델들은 이 문제에서 딱 50%의 정답률을 보였습니다.

10KB 제한: 지식의 압축과 프롬프트 엔지니어링

이번 챌린지의 핵심은 간단하지만 가혹합니다. 참가자들은 이 작고 멍청한 모델들의 정답률을 끌어올리기 위해 최대 10KB 크기의 치트 시트(Cheat Sheet) 를 작성해야 합니다.

학부생 시절 수학 시험을 볼 때 A4 용지 한 장에 공식과 핵심 원리를 빼곡히 적어갔던 오픈북 테스트를 떠올려 보십시오. 2,200만 개의 방대한 수학적 진리를 어떻게 10KB라는 제한된 텍스트 공간 안에 압축(Distillation)하여 모델에게 주입할 것인가? 이것이 이 대회의 본질입니다.

  • 목표: 저렴한 모델의 정답률을 50%에서 최대한 끌어올리기 (현재 베이스라인은 55~60% 수준)
  • 제한: 10KB 이하의 프롬프트
  • 평가: 1,200개의 퍼블릭 데이터셋과 비공개 테스트 데이터셋을 통한 검증

솔직히 이 소식을 처음 접했을 때, 저는 이것이 그저 흔한 프롬프트 해커톤 중 하나일 것이라고 생각했습니다. 하지만 엔지니어의 관점에서 조금만 더 깊이 파고들어 보면, 이것은 단순한 말장난이 아니라 지식 표현(Knowledge Representation) 과 인컨텍스트 러닝(In-Context Learning)의 극한을 테스트하는 과정임을 알 수 있습니다.

우리는 보통 모델의 도메인 지식을 높이기 위해 RAG(Retrieval-Augmented Generation)를 구축하거나 파인튜닝(Fine-tuning)을 고려합니다. 하지만 파인튜닝은 종종 모델이 논리를 배우는 것이 아니라 정답을 암기하게 만드는 오버피팅의 함정에 빠지기 쉽습니다. 반면, 10KB의 텍스트로 모델의 범용적 추론 능력을 10% 이상 끌어올릴 수 있다면, 이는 모델이 논리를 전개하는 방법 자체를 가이드하는 강력한 방법론이 될 수 있습니다.

커뮤니티의 반응과 엔지니어링 현실

현재 이 대회가 진행되는 Zulip 채널과 Hacker News에서는 컴퓨팅 리소스에 대한 불만이 꽤 나오고 있습니다. SAIR 재단에서 제공하는 플레이그라운드는 하루에 단 10 크레딧만 제공하기 때문입니다.

한 참가자가 하루 10번 테스트로는 부족하다고 불평하자, 테렌스 타오는 예상되는 참가자 수를 감안할 때 우리가 제공할 수 있는 최대치라며, 진지한 참가자들은 자신만의 컴퓨팅 리소스를 활용해 자체적인 테스트 프레임워크를 구축할 것으로 예상한다고 답변했습니다.

저는 타오 교수의 이 답변이 현실 세계의 엔지니어링을 정확히 관통한다고 봅니다. 프로덕션 레벨의 시스템을 구축할 때, 우리는 결코 벤더가 제공하는 웹 UI 플레이그라운드에 의존하지 않습니다. vLLM이나 Ollama 같은 로컬 추론 엔진을 띄우고, 파이썬으로 자동화된 평가 파이프라인(Evaluation Pipeline)을 구축하여 수천 번의 프롬프트 이터레이션을 돌리는 것이 기본입니다.

결론: 이 기술은 프로덕션에 유효한가?

이 챌린지는 단순한 수학 대회가 아닙니다. 제한된 컨텍스트 윈도우(Context Window) 내에서 모델의 성능을 극대화하는 방법을 찾는 과정은, 현재 수많은 AI 스타트업과 테크 기업들이 직면한 문제를 정확히 모델링하고 있습니다.

제가 보기에 이 접근법은 프로덕션 환경에서 매우 실용적입니다. 수십 GB의 데이터를 파인튜닝하는 데 엄청난 GPU 비용을 쏟아붓기 전에, 도메인 전문가가 작성한 고밀도의 시스템 프롬프트가 모델의 성능을 얼마나 끌어올릴 수 있는지 먼저 테스트해야 합니다.

이번 1단계 챌린지는 4월 20일에 종료되며, 상위 1,000명은 단순한 참/거짓 판별을 넘어 증명과 반례까지 제시해야 하는 더 어려운 2단계로 진출하게 됩니다. 과연 10KB의 텍스트가 어디까지 AI의 추론 능력을 끌어올릴 수 있을지, 최종 우승자의 치트 시트가 공개되는 날을 기대해 봅니다.


References