LLM이 테트리스를 한다고? TetrisBench로 본 Gemini Flash의 도약과 벤치마크의 본질


최근 Hacker News를 보다가 눈길을 끄는 프로젝트를 발견했습니다. 바로 TetrisBench 입니다. 이름 그대로 LLM(Large Language Model)들이 서로 테트리스 대결을 펼치는 벤치마크인데, 결과가 꽤 흥미롭습니다. 특히 구글의 Gemini Flash 가 Anthropic의 Claude 3 Opus 를 상대로 66%의 승률(특정 조건에서는 80%까지)을 기록했다는 점이 인상적이더군요.

보통 우리는 LLM을 코딩이나 문서 요약에 쓰지만, 이런 식의 ‘실시간 의사결정’ 테스트는 모델의 추론 속도(Latency)와 공간 지각 능력을 동시에 볼 수 있는 좋은 기회입니다. 오늘은 이 TetrisBench가 시사하는 바와 엔지니어로서 느낀 한계점에 대해 깊게 파고들어 보겠습니다.

Gemini Flash: 가성비 모델의 반란

우리가 흔히 ‘Flash’나 ‘Turbo’ 모델을 생각할 때, 보통은 성능(Intelligence)을 희생하고 속도와 비용을 챙긴 모델로 간주합니다. 그런데 이번 TetrisBench 결과는 이 통념을 살짝 비틀고 있습니다.

벤치마크 데이터에 따르면, Gemini Flash는 Opus 4.5 같은 Heavyweight 모델을 상대로 압도적인 모습을 보여줍니다. 물론 테트리스라는 도메인이 텍스트 생성보다 ‘패턴 인식’과 ‘빠른 판단’에 더 가중치를 두기 때문일 수도 있습니다. 하지만 Price-performance curve 측면에서 봤을 때, Gemini 3 Flash 계열이 현재 시장에서 차지하는 위치가 상당히 매력적이라는 점은 부인할 수 없습니다.

Hacker News의 한 유저도 이렇게 평하더군요.

“Gemini 3 Flash는 가격 대비 성능 곡선에서 아주 훌륭한 위치에 있습니다. 복잡한 작업은 Opus 4.5나 Gemini 3 Pro에게 맡기더라도, 일반적인 워크호스(Workhorse)로는 Flash가 제격입니다.”

저도 이 의견에 동의합니다. 프로덕션 환경에서 API 비용과 Latency는 무시할 수 없는 요소니까요.

벤치마크의 신뢰성: 엔진이 엉성하면 결과도 엉성하다

하지만 엔지니어로서 이 프로젝트를 뜯어보니, ‘실험 환경의 통제’ 측면에서 아쉬운 점들이 보입니다. 벤치마크는 공정해야 하고, 무엇보다 그 환경이 ‘표준’을 따라야 결과를 신뢰할 수 있습니다.

댓글 섹션에 등판한 테트리스 고인물(상위 10% 플레이어라고 밝힌 유저)의 지적은 뼈아픕니다. 현재 TetrisBench의 구현체에는 치명적인 결함들이 있다는 것이죠.

  • RNG (Random Number Generator): 현대 테트리스는 보통 ‘7-bag’ 시스템(7개의 블록을 한 묶음으로 섞어서 제공)을 사용하여 블록이 고르게 나오도록 보장합니다. 하지만 이 벤치마크는 단순 랜덤(True Random) 방식을 사용하는 것으로 보입니다. 이는 운빨 요소가 너무 강해져 모델의 실력을 제대로 측정하기 어렵게 만듭니다.
  • 회전 시스템 (SRS): 테트리스의 핵심인 ‘Super Rotation System’ 구현이 미흡하다는 지적입니다. T-spin 같은 고급 기술을 쓰려면 회전 축이나 Wall kick이 정확해야 하는데, 현재 구현체는 좌편향(Left-biased)되어 있어 오동작을 유발한다고 합니다.

만약 시뮬레이터 자체가 엉망이라면, 모델이 게임을 못하는 건지 아니면 ‘버그가 있는 물리 엔진’에 적응을 못한 건지 구별하기 어렵습니다. 엔지니어링에서 Garbage In, Garbage Out 은 불변의 진리입니다.

철학적 논쟁: 직접 플레이 vs 봇 코딩

또 하나 흥미로운 논쟁은 “왜 LLM에게 직접 테트리스를 시키는가?” 입니다.

한 유저는 “LLM에게 테트리스를 플레이하게 하는 것보다, 테트리스 봇(Bot)을 코딩하게 시키면 1000배는 더 잘할 것”이라고 비판했습니다. 차라리 체스 엔진을 C++로 짜게 해서 Stockfish랑 붙이는 게 낫지 않냐는 의견도 있었죠.

일리는 있습니다. LLM은 본질적으로 텍스트 프로세서지, 실시간 제어 장치가 아니니까요. 하지만 저는 이 벤치마크의 의의가 ‘Agentic Workflow’ 의 가능성을 보는 데 있다고 생각합니다.

코드를 짜서 실행하는 건 ‘계획(Planning)‘의 영역이지만, 변화하는 화면을 보고 다음 수를 두는 건 ‘대응(Reaction)‘과 ‘적응(Adaptation)‘의 영역입니다. AGI(Artificial General Intelligence)로 가는 길목에서, 모델이 사전에 정의되지 않은 환경(설령 그게 버그 많은 테트리스라도)에서 어떻게 행동하는지 관찰하는 건 꽤 의미 있는 실험입니다.

결론: 재미는 있지만, Production Ready 벤치마크는 아니다

TetrisBench는 현재 상태로는 ‘흥미로운 장난감’ 수준입니다. 게임 로직의 결함 때문에 이 결과를 가지고 “Gemini가 Opus보다 추론 능력이 뛰어나다”고 단정 짓기는 위험합니다.

하지만 두 가지는 확실히 건졌습니다.

  1. Gemini Flash의 약진: 경량 모델이 특정 Task에서는 거대 모델을 압도할 수 있다는 가능성.
  2. 벤치마크 설계의 중요성: AI를 평가하려면, 평가 도구(Environment)부터 완벽하게 만들어야 한다는 교훈.

개인적으로는 이 벤치마크가 개선되어, 제대로 된 ‘7-bag’ 시스템과 ‘SRS’가 적용된 상태에서 다시 한번 붙어봤으면 좋겠습니다. 그때도 Flash가 이긴다면, 그때는 진짜 인정을 해줘야겠죠.