Trinity Large: 2천만 달러로 400B 모델을 학습시키는 방법과 그 의미


최근 LLM(Large Language Model) 씬을 보고 있으면, 마치 냉전 시대의 군비 경쟁을 보는 것 같습니다. 수십억 달러의 자본, 수만 개의 H100 클러스터, 그리고 전력 소비량까지. “이제 스타트업이나 오픈소스 진영이 감히 넘볼 수 있는 영역이 아니다”라는 패배감이 은연중에 깔려 있었죠.

그런데 며칠 전, Arcee AI 가 꽤 도발적인 결과물을 내놓았습니다. 이름은 Trinity Large. 파라미터 400B 규모의 거대 모델인데, 이걸 단돈(?) 2천만 달러(약 280억 원) 에, 그것도 33일 만에 학습시켰다고 합니다.

단순히 “가성비 좋은 모델이 나왔다”라고 넘기기엔 기술적인 디테일과 시사하는 바가 큽니다. 오늘은 이 모델의 아키텍처와 엔지니어링 포인트, 그리고 Hacker News에서 오가는 논쟁들을 씹고 뜯고 맛보고 즐겨보겠습니다.

1. 400B 파라미터, 하지만 가벼운 몸놀림

Trinity Large의 핵심은 Sparse MoE (Mixture of Experts) 아키텍처에 있습니다. 400B라고 하면 엄청나게 무거울 것 같지만, 실제 추론(Inference) 시에는 토큰당 13B 파라미터 만 활성화됩니다.

  • Total Parameters: 400B
  • Active Parameters: 13B
  • Experts: 256개
  • Active Experts: 4개

이 수치가 꽤 흥미롭습니다. 보통 MoE 모델들이 8개나 16개의 전문가(Expert) 중 Top-2를 고르는 방식을 많이 쓰는데, Trinity는 256개 중 4개 를 고릅니다. 굉장히 높은 희소성(Sparsity) 비율입니다.

왜 이렇게 설계했을까?

이 구조는 명확하게 학습 및 추론 효율성 을 타겟팅한 겁니다. 활성 파라미터가 13B 수준이라는 건, 연산량(FLOPs) 관점에서는 Llama-2 13B 모델을 돌리는 것과 큰 차이가 없다는 뜻입니다. 하지만 400B라는 거대한 지식 저장소(Knowledge Base)를 뒤에 업고 있죠.

Hacker News의 한 유저는 이를 두고 “DeepSeek나 GLM 수준의 성능을 내기엔 너무 희소(Sparse)한 것 아니냐”는 우려를 표하기도 했습니다. 실제로 256개 전문가 중 4개만 쓴다는 건 라우팅(Routing)이 정말 기가 막히게 잘 되어야 한다는 전제 조건이 붙습니다.

2. 엔지니어링 디테일: 라우팅 붕괴를 막아라

MoE를 학습시켜 본 분들은 아시겠지만, 가장 큰 골칫덩어리는 Router Collapse 입니다. 특정 전문가에게만 일이 몰리고 나머지는 노는 현상이죠. Arcee AI는 이를 해결하기 위해 교과서적이면서도 실용적인 기법들을 적용했습니다.

  • Router Bias Adjustment: 전문가가 과하게 사용되거나 덜 사용되면 바이어스(Bias)를 조정합니다. 이때 tanh 클리핑을 써서 값이 튀는 걸 막고, 모멘텀(Momentum)을 추가해 학습이 진동하는 걸 방지했습니다.
  • Z-loss: 학습 중 로짓(Logit) 값이 무한정 커지는 걸 막기 위한 정규화(Regularizer)입니다. 이건 구글의 ST-MoE 논문 이후로 거의 표준이 된 것 같네요.

개인적으로 인상 깊었던 건 Nvidia B300 GPU 2048장 을 썼다는 점입니다. (H200 기반의 커스텀 SKU로 추정됩니다.) 17T 토큰을 33일 만에 밀어 넣으려면 하드웨어 빨도 중요하지만, 데이터 파이프라인 최적화가 필수적입니다. 이들은 학습 중간(5T 토큰 이후)에 배치 사이즈를 키우는 전략으로 스루풋(Throughput)을 극대화했습니다.

3. TrueBase: 진짜 ‘날것’의 모델

Arcee는 이번에 세 가지 버전을 공개했습니다.

  1. Preview: Chat 튜닝이 된 버전 (현재 사용 가능)
  2. Base: 17T 토큰 학습 완료 버전
  3. TrueBase: 10T 토큰 시점의 체크포인트 (Instruct 데이터 없음, LR 어닐링 없음)

저는 이 TrueBase 에 주목합니다. 보통 우리가 접하는 ‘Base’ 모델들도 사실 약간의 인스트럭션 튜닝이나 정제된 데이터가 섞여 있기 마련입니다. 하지만 TrueBase는 정말 순수한 프리트레이닝(Pre-training)의 결과물입니다. 연구자 입장에서는 모델이 데이터로부터 무엇을 배웠는지, RLHF가 개입하기 전의 순수한 지능이 어느 정도인지 분석할 수 있는 귀한 자료입니다.

4. 논란과 비판: 벤치마크와 데이터

물론 장밋빛 전망만 있는 건 아닙니다. Hacker News와 커뮤니티의 반응은 꽤 날카롭습니다.

”Llama-4-Maverick”과의 비교?

Arcee는 벤치마크에서 자사 모델을 “Llama-4-Maverick”과 비교했습니다. 문제는 Maverick이 공식 출시된 모델이 아니라 유출되거나 루머로 도는 모델이라는 점입니다. 한 유저는 이를 두고 “돌덩이와 LLM을 비교하는 것과 같다” 며 강하게 비판했습니다. 마케팅적으로 무리수를 둔 감이 있습니다.

50% 합성 데이터(Synthetic Data)

17T 토큰 중 8T가 합성 데이터입니다. DatologyAI와 협업했다고는 하지만, “LLM이 뱉은 데이터로 학습한 모델” 에 대한 근본적인 불신은 여전합니다. 모델 붕괴(Model Collapse)까지는 아니더라도, 창의성이나 엣지 케이스(Edge Case) 처리 능력에서 한계가 올 수 있다는 지적은 유효합니다.

가성비의 함정

“2천만 달러로 만들었다”는 건 대단한 성과지만, 반대로 말하면 “더 많은 돈을 쓴 모델보다 똑똑할 수 있나?” 라는 질문에 답해야 합니다. 활성 파라미터가 13B라는 건 추론 비용은 싸지만, 추론 능력(Reasoning)의 상한선(Ceiling)이 낮을 수 있다는 뜻이기도 하니까요.

5. 마치며: 엔지니어 관점에서의 Verdict

Trinity Large는 “실용주의적 파운데이션 모델” 의 신호탄입니다. GPT-5를 이기겠다고 만든 모델이 아닙니다. 오히려 “우리가 가진 H200 클러스터에서 돌릴 수 있는 가장 똑똑한 모델은 무엇인가?” 라는 질문에 대한 답입니다.

현업 엔지니어로서, 저는 이 모델을 다음과 같은 상황에 추천하고 싶습니다.

  • On-Premise 구축이 필수적인 기업: 데이터 보안 때문에 외부 API를 못 쓰는데, 70B 모델로는 성능이 아쉽고 405B는 너무 무거울 때.
  • RAG(검색 증강 생성) 시스템의 백본: 512k 컨텍스트 윈도우와 빠른 추론 속도는 RAG에 최적화되어 있습니다.

아직 코딩 에이전트 같은 복잡한 작업에는 ‘Preview’ 버전이 다소 거칠게 느껴질 수 있습니다. 하지만 오픈 웨이트(Apache 2.0)로 풀린 400B MoE 모델이라는 존재만으로도, Trinity Large는 찍먹해볼 가치가 충분합니다.

References: