프론티어 수학 난제를 뚫어낸 GPT-5.4 Pro: AI는 어떻게 미해결 문제를 풀었나
솔직히 말해서, 그동안 AI가 코딩 테스트나 이미 증명된 수학 문제를 푸는 것은 수없이 봐왔지만 ‘미해결 난제’를 풀었다는 소식에는 항상 회의적이었습니다. 대부분의 경우 데이터셋 오염(Data contamination)이거나, 난제라고 부르기 민망한 수준의 문제들이었으니까요.
하지만 이번 Epoch AI의 발표는 궤가 다릅니다. GPT-5.4 Pro가 조합론 분야의 미해결 문제인 ‘하이퍼그래프 램지 문제(Ramsey-style Problem on Hypergraphs)‘를 해결했고, 해당 문제를 출제한 UNC Charlotte의 Will Brian 교수도 이를 공식적으로 인정했습니다. 15년 차 엔지니어의 시각에서, 이번 사건은 단순히 ‘AI가 똑똑해졌다’를 넘어 우리가 복잡한 시스템을 설계하고 문제를 해결하는 방식에 근본적인 변화가 오고 있음을 시사합니다.
문제의 본질: 하이퍼그래프 램지 문제
이 문제는 무한 급수의 동시 수렴(simultaneous convergence) 연구에서 파생된 수열 H(n)의 하한(lower bound)을 개선하는 것입니다. 쉽게 말해, 특정 조건을 만족하는 파티션이 없는 가장 큰 하이퍼그래프를 구성하는 방법을 찾는 최적화 및 탐색 문제입니다.
수학적 디테일도 흥미롭지만, 엔지니어로서 제 눈길을 끈 것은 AI에게 주어진 인터페이스 입니다. 모델은 단순히 수학적 증명을 텍스트로 내뱉은 것이 아니라, 아래와 같은 Python 함수를 작성해야 했습니다.
def solution(n: int) -> str:
# n을 입력받아 H(n) >= c * k_n을 증명하는 하이퍼그래프를 문자열로 반환
pass
조건을 보면, n <= 100일 때 일반적인 랩탑에서 10분 이내에 실행이 완료되어야 한다는 제약이 있습니다. 즉, 무식한 Brute-force 탐색이 아니라, 시간 복잡도를 고려한 우아한 알고리즘을 설계해야 했다는 뜻입니다. Brian 교수에 따르면, AI의 접근 방식은 기존 하한 구성의 비효율성을 완벽하게 제거했으며, 상한 구성의 복잡성을 거울처럼 반영했다고 합니다.
핵심은 모델이 아니라 스캐폴딩(Scaffolding)이다
이번 성과에서 가장 주목해야 할 부분은 모델 자체의 파라미터 크기나 추론 능력이 아닙니다. Hacker News 커뮤니티에서도 뜨거운 감자였던 스캐폴드(Scaffold) 의 역할입니다.
Epoch AI는 이 문제를 풀기 위해 ‘FrontierMath: Open Problems’ 테스트용 일반 스캐폴드를 개발했다고 밝혔습니다. HN의 한 유저가 “스캐폴드가 대체 뭐냐? 증명을 위한 단위 테스트 프레임워크 같은 거냐?”라고 묻자, 다른 엔지니어가 정확한 핵심을 짚었습니다.
- Scaffold: 실제 모델을 감싸는 하네스(Harness), 도구 제공, 작업 배치 방식, 그리고 자동 비평(Auto-critique) 메서드들의 집합체.
과거 우리가 복잡한 분산 시스템의 엣지 케이스를 찾기 위해 퍼징(Fuzzing) 프레임워크를 구축했던 것과 정확히 같은 맥락입니다. AI는 이제 제로샷(Zero-shot)으로 정답을 뱉어내는 마술 상자가 아닙니다. 코드를 작성하고, 샌드박스에서 실행해보고, 실패하면 에러 로그를 분석하여 자신의 로직을 수정하는 에이전틱 루프(Agentic Loop) 속에서 동작합니다.
정말 흥미로운 점은 연산량을 쏟아부은 Gemini 3 deepthink는 이 문제를 풀지 못했는데, 일반 Gemini 3.1 Pro나 GPT-5.4는 스캐폴드의 도움을 받아 풀었다는 사실입니다. 이는 현업 소프트웨어 엔지니어링의 진리와도 일맥상통합니다. 무식하게 컴퓨팅 파워만 늘린다고 복잡한 아키텍처 문제가 해결되지 않죠. 주어진 문제를 어떻게 쪼개고, 피드백 루프를 어떻게 설계하느냐가 훨씬 중요합니다.
Hacker News의 반응과 엔지니어로서의 단상
HN 스레드를 보면 여전히 “AI가 새로운 것을 만들어낼 리 없다”며 부정하는(AI denial) 사람들도 있지만, 대다수의 시니어 엔지니어들은 현실을 직시하고 있습니다.
특히 흥미로웠던 논의는 출제자의 ‘문제 난이도 평가’에 대한 것이었습니다. 출제자는 이 문제를 인간 전문가가 푸는 데 1~3개월이 걸릴 것으로 예상했습니다. 일각에서는 이 추정치가 얼마나 정확하냐고 반문하지만, 우리가 스프린트 플래닝에서 스토리 포인트를 산정할 때를 생각해 보십시오. 시니어 엔지니어의 직관적인 에스티메이션은 대개 현실과 크게 다르지 않습니다. 인간이 몇 달을 고민해야 할 탐색 공간을 AI가 적절한 툴링을 통해 단기간에 돌파했다는 것은 부정할 수 없는 사실입니다.
결론 및 시사점
저는 이번 사례를 보며, 우리가 AI를 대하는 방식을 완전히 바꿔야 한다고 확신했습니다. AI를 단순한 ‘자동 완성 도구’나 ‘검색 엔진’으로 취급하는 시대는 끝났습니다.
우리가 프로덕션 레벨에서 고민해야 할 것은 “어떤 모델을 쓸 것인가”가 아니라, “모델이 스스로 가설을 세우고, 코드를 짜고, 테스트하고, 검증할 수 있는 엔지니어링 파이프라인(Scaffold)을 어떻게 구축할 것인가”입니다.
이러한 스캐폴딩 기술이 더 발전한다면, 머지않아 분산 데이터베이스의 트랜잭션 충돌 버그를 잡거나, 메모리 누수를 추적하는 복잡한 디버깅 작업도 AI 에이전트에게 온전히 위임할 수 있을 것입니다. AI는 이제 장난감을 넘어, 진정한 의미의 ‘동료 엔지니어’로 진화하고 있습니다.
References
- Original Article: Epoch AI - A Ramsey-style Problem on Hypergraphs
- Hacker News Thread: https://news.ycombinator.com/item?id=47497757