LLM 블랙박스를 여는 열쇠: Steerling-8B와 Inherent Interpretability의 부상


솔직히 말해봅시다. 우리 엔지니어들에게 현재의 LLM은 거대한 블랙박스 입니다.

프롬프트 엔지니어링? 그건 사실상 ‘굿판’을 벌이는 것과 다를 바 없습니다. “제발 환각(Hallucination) 좀 일으키지 마라”고 빌면서 텍스트를 조금씩 비틀어보는 것이 고작이죠. 모델이 왜 그런 답변을 내놓았는지, 특정 토큰이 학습 데이터의 어디에서 기인했는지 알 방법이 요원했습니다. SHAP 값이나 Attention Map을 뜯어봐도, 80억 개가 넘는 파라미터 숲에서 인과관계를 찾아내는 건 ‘그림자 놀이’에 불과했으니까요.

그런데 최근 Hacker News를 뜨겁게 달군 Steerling-8B 라는 모델이 등장했습니다. Guide Labs에서 내놓은 이 모델은 기존의 접근법을 완전히 뒤집습니다. “해석 가능성(Interpretability)“을 나중에 덧붙이는 게 아니라, 아키텍처 설계 단계부터 내재화(Inherent) 시켰다는 점이 핵심입니다.

오늘은 이 모델이 왜 중요한지, 그리고 이것이 우리 같은 시니어 엔지니어들에게 어떤 의미가 있는지 딥다이브 해보겠습니다.

1. “결과”가 아니라 “과정”을 보여준다

기존의 설명 가능한 AI(XAI) 시도들은 대부분 Post-hoc(사후) 분석이었습니다. 이미 학습된 모델에 Sparse Autoencoder(SAE)를 붙여서 “아마도 이 뉴런들이 이런 개념을 담당할 거야”라고 추측하는 식이었죠. 하지만 Steerling-8B는 다릅니다.

이 모델은 8B 파라미터 규모에서 생성되는 모든 토큰 에 대해 다음 세 가지를 추적할 수 있습니다:

  1. Input Context: 프롬프트의 어떤 단어가 이 결과에 영향을 미쳤는가?
  2. Concepts: 모델 내부의 어떤 ‘개념(Concept)‘이 활성화되었는가?
  3. Training Data: 학습 데이터 중 어떤 문서(ArXiv, Wikipedia 등)가 이 토큰 생성에 기여했는가?

이게 가능한 이유는 아키텍처가 독특하기 때문입니다. Steerling은 Causal Discrete Diffusion 백본을 사용하며, 임베딩을 세 가지 경로로 명시적으로 분해(Decomposition)합니다.

  • Supervised Concepts (~33k): 인간이 이해할 수 있는 정의된 개념 (예: ‘임상적 어조’, ‘유전학’ 등)
  • Discovered Concepts (~100k): 모델이 스스로 학습한 개념
  • Residual: 위 두 가지로 설명되지 않는 나머지

흥미로운 점은 검증 데이터셋에서 토큰 생성 기여도의 84% 이상 이 이 ‘Concept Module’에서 나온다는 겁니다. 즉, 모델이 알 수 없는 ‘Residual’에 의존해서 답변을 찍는 게 아니라, 명확한 개념 경로를 타고 추론한다는 뜻입니다.

2. Hacker News의 논쟁: SAE와 무엇이 다른가?

Hacker News의 스레드에서도 날카로운 지적들이 오갔습니다. 한 유저는 “이거 그냥 기존 모델에 Dictionary Learning을 덧씌운 거 아니냐?”라고 의문을 제기했죠. 저도 처음엔 그렇게 생각했습니다. Anthropic이 클로드(Claude)를 분석할 때 썼던 방식과 비슷해 보였거든요.

하지만 Guide Labs 팀의 답변에서 중요한 차이점을 발견했습니다. SAE는 학습이 끝난 후 모델을 해석하려는 시도라면, Steerling은 Pre-training 단계에서부터 개념(Concept)을 학습하도록 제약(Constraint)을 걸었다 는 겁니다.

이 차이는 실로 엄청납니다. 사후 분석은 인과관계(Causality)를 보장하지 못합니다. “이 뉴런이 켜졌으니 이 개념일 것이다”는 상관관계일 뿐이죠. 반면, Steerling은 아키텍처 레벨에서 Linear Path 를 통해 Logit을 생성하므로, 특정 개념이 출력에 미친 영향을 수학적으로 Closed Form 으로 계산해낼 수 있습니다.

3. 엔지니어링 관점에서의 효용성: 디버깅과 제어

CTO나 리드급 엔지니어라면 “그래서 이걸 어디다 써?”라고 물으실 겁니다. 저는 두 가지 킬러 유스케이스가 보입니다.

A. Inference-Time Alignment (재학습 없는 제어)

지금까진 모델이 유해한 답변을 하면 수천 개의 SFT(Supervised Fine-tuning) 데이터셋을 만들어 다시 학습시켜야 했습니다. Steerling은 다릅니다. 추론 시점에 특정 개념(예: ‘공격성’, ‘편향’)의 가중치를 낮추거나(Suppress), 특정 개념(예: ‘논리적 추론’)을 높이는(Amplify) 것만으로 모델의 행동을 제어할 수 있습니다. Fine-tuning 없이 파라미터 노브(Knob)만 돌려서 모델을 튜닝 하는 셈입니다.

B. 규제 산업(Finance, Healthcare)의 구세주

금융이나 의료 분야에서 LLM 도입이 더딘 이유는 “설명 불가능성” 때문입니다. 대출 심사를 거절했는데 “AI가 그렇다네요”라고 할 순 없으니까요. Steerling은 “학습 데이터의 14,502번째 청크(금융 규정 문서)와 ‘위험 회피’ 개념이 0.7의 가중치로 작용하여 거절했습니다”라고 설명할 수 있습니다. 이는 감사(Audit) 요건을 충족시킬 수 있는 Game Changer 가 될 수 있습니다.

4. 성능과 비용: 공짜 점심은 없다?

보통 Interpretability를 챙기면 성능(Performance)이 떨어지기 마련입니다. 그런데 Steerling 팀은 1.35T 토큰만으로 학습했음에도 Llama 2 7B나 Deepseek 7B와 대등한 성능을 낸다고 주장합니다. 물론 Llama 3 (15T 토큰)와 비교하면 체급 차이가 나겠지만, 데이터 효율성 측면에서는 상당히 인상적입니다.

다만, 저는 여전히 보수적으로 봅니다. 벤치마크 점수와 실제 프로덕션 환경에서의 ‘체감 성능’은 다르니까요. 특히 Diffusion 기반의 언어 모델은 Transformer 기반보다 추론 속도(Latency) 면에서 어떤 특성을 보일지 직접 테스트해봐야 합니다.

5. 결론: 이것은 장난감이 아니다

한 HN 유저는 “파티 트릭(Party Trick)에 불과하다”고 폄하했지만, 저는 동의하지 않습니다. 우리가 10년 넘게 소프트웨어를 개발하며 배운 진리는 “제어할 수 없는 코드는 배포하지 말라” 는 것입니다. 지금까지의 LLM은 제어가 불가능했습니다.

Steerling-8B는 완벽하지 않을 수 있습니다. 하지만 “Black Box AI”에서 “Glass Box AI”로 넘어가는 중요한 전환점 임은 분명합니다. 특히 엔터프라이즈 환경에서 LLM을 도입하려다 ‘환각’과 ‘설명 책임’ 문제로 골머리를 앓고 있다면, 이 모델의 아키텍처와 접근 방식을 반드시 주목해야 합니다.

단순히 더 큰 모델, 더 많은 데이터를 때려 붓는 경쟁에서 벗어나, “모델이 무엇을 알고 있는가” 를 이해하려는 이런 시도야말로 진정한 엔지니어링의 진보라고 생각합니다.