Post

같은 비용으로 더 똑똑한 AI를 만들 수 있을까?

Ensemble, Model Soup, 그리고 현대 AI의 표준이 된 Mixture of Experts까지 — 핵심 아이디어를 처음부터 설명합니다.

같은 비용으로 더 똑똑한 AI를 만들 수 있을까?
LLM Fundamentals · Week 7

같은 비용으로
더 똑똑한 AI
만들 수 있을까?

Ensemble, Model Soup, 그리고 현대 AI의 표준이 된
Mixture of Experts까지 — 핵심 아이디어를 처음부터 설명합니다.

SCROLL
00 · 큰 그림

scaling law 이후의 질문

지난 주 scaling law를 통해 "모델을 얼마나 크게, 데이터를 얼마나 써야 하는가"를 배웠습니다. 이번 주의 질문은 그 다음입니다.

같은 compute 예산으로 더 좋은 모델을 만들 수 있는가?

세 가지 전략이 있습니다.

🎯

Ensemble

여러 모델의 출력을 합침. 정확하지만 M배 비쌈. LLM엔 거의 안 씀.

🍲

Model Soup

fine-tuned 모델들의 가중치를 평균. 추론 비용 동일. 연구 단계.

Mixture of Experts

레이어마다 여러 MLP, 토큰당 일부만 활성화. 최신 모델의 표준.

01 · Ensemble

여러 모델을 합치면 더 좋아진다 — 이론상으로는

Ensemble의 핵심 직관은 간단합니다. 서로 다른 모델은 서로 다른 곳에서 틀립니다. 합치면 서로의 실수를 보완할 수 있어요.

두 가지 합치는 방식

Linear interpolation — OR 논리. 어느 모델이든 하나가 확신하면 전체 확률이 높아집니다.

P(y|x) = Σₘ Pₘ(y|x) · P(m|x)

Log-linear interpolation — AND 논리. 모든 모델이 동의해야 확률이 높아집니다.

P(y|x) = softmax( Σₘ λₘ · log Pₘ(y|x) )

그런데 LLM에 왜 안 쓸까?

Ensemble이 효과적이려면 각 모델의 예측이 불안정하고 들쑥날쑥해야(high variance) 합니다. 작은 모델은 초기화나 데이터에 따라 예측이 크게 달라지니 ensemble이 크게 도움됩니다.

반면 LLM은 수백억 파라미터와 방대한 데이터로 학습되어 variance가 이미 낮습니다. 다른 random seed로 두 번 학습해도 비슷한 곳에서 비슷하게 틀려요. 합쳐봤자 얻는 게 없고, 비용(M배 추론)만 늘어납니다.

HIGH VARIANCE (작은 모델) Ensemble → 중심으로 수렴. 효과 있음! LOW VARIANCE (LLM) 이미 모여 있음. Ensemble 이득 없음 각 점 = 모델 하나의 예측 각 점 = 모델 하나의 예측
Fig 1. Variance가 높을수록 Ensemble의 이득이 크다
02 · Model Soup

가중치를 평균내면 더 좋아진다

여러 hyperparameter로 fine-tuning한 모델들을 고르는 대신, 가중치 자체를 평균내는 방법입니다. 추론 비용은 그대로이면서 best single model보다 성능이 높아집니다.

❌ UNIFORM SOUP

모든 fine-tuned 모델을 단순 평균. 나쁜 모델도 포함되어 성능이 희석될 수 있음.

✓ GREEDY SOUP

순차적으로 추가하면서 validation accuracy가 오르면 포함. 베스트 단일 모델을 뛰어넘음.

왜 작동하는가? — Loss Basin

모델의 가중치 공간을 지형도(loss landscape)로 상상해보세요. 가로축은 가중치 값, 세로축은 loss입니다. 학습이 잘 된 모델은 loss가 낮은 움푹 파인 골짜기(basin) 어딘가에 안착합니다.

LOSS ↑ SAME BASIN (같은 pretrained checkpoint에서 시작) A B A+B/2 (여전히 basin 안) DIFFERENT BASINS (다른 출발점) C D C+D/2 (봉우리 → loss 폭등!)
Fig 2. 같은 basin 안에 있으면 평균내도 안전하다

같은 pretrained 체크포인트에서 fine-tuning을 시작하면, hyperparameter가 달라도 같은 basin 안 어딘가에 떨어집니다. 서로 다른 골짜기로 넘어갈 만큼 멀리 가지 않기 때문에, 평균을 내도 basin 안에 머물고 — loss가 낮습니다.

왜 Frontier LLM에선 안 쓰나?

Frontier LLM이란 현재 기술 최전선의 가장 강력한 모델들(GPT-4, Claude, Gemini 등)을 말합니다. 이 모델들은 pretraining 이후 RLHF(사람의 선호를 reward로 삼는 강화학습)로 넘어가기 때문에, Model Soup의 재료가 되는 대규모 fine-tuning sweep(여러 hyperparameter 조합을 전부 돌려보는 것)을 따로 하지 않습니다. Soup에 쓸 재료 자체가 없는 거예요.

03 · Mixture of Experts

MoE — 같은 FLOPs, 더 많은 파라미터

Scaling law가 말해주는 건 이렇습니다: loss를 낮추려면 파라미터(N)와 데이터(D)를 늘려야 한다. MoE는 여기서 FLOPs를 고정한 채로 N을 늘리는 구조적 해결책입니다.

DENSE TRANSFORMER x (input token) Self-Attention Add + Normalize MLP 항상 활성화 Add + Normalize y (output) MOE TRANSFORMER x (input token) Self-Attention Add + Normalize Router MLP1 MLP2 MLP3 MLP4 MLP5 활성화됨 (top-K) 비활성 (이 토큰엔 미선택) Add + Normalize y (output)
Fig 3. Dense vs MoE 블록 구조. 실선 = 활성화, 점선 = 비활성

FLOPs는 K에 비례 (항상 K개만 계산) — 파라미터 수는 N에 비례 (N개 모두 저장).
→ 같은 훈련 비용으로 더 많은 파라미터를 활용할 수 있습니다.

실제 사용 현황

ModelTotal ParamsActive ParamsExperts (N)Top-KYear
Switch Transformer~1T~1/12812812022
Mixtral 8×7B47B13B822023
DeepSeek-V2236B21B16062024
DeepSeek-V3671B37B25682024
Llama 4 Maverick~400B~17B12812025
Qwen3-235B-A22B235B22B12882025
04 · 라우팅 함수

어떻게 expert를 고르는가?

세 가지 방식이 연구됐습니다.

🎫

Token-choice top-K

각 토큰이 점수 높은 K개 expert를 선택. 실증적으로 최우수. Mixtral, DeepSeek, Llama 4 등 현재 표준.

🎓

Expert-choice top-K

각 expert가 점수 높은 K개 토큰을 선택. 부하 균형은 자동이지만 일부 토큰이 누락될 수 있음.

🔢

Global assignment

토큰-expert 전체를 동시에 최적화 문제로 풀기. 복잡도 높음.

Token-choice Router의 수식

각 expert i는 학습된 벡터 eᵢ ∈ ℝ^d를 가집니다. Attention의 Q-K 내적과 구조가 똑같습니다.

// Score: 각 expert에 대한 softmax 확률
si,t = Softmaxi( uₜᵀ · eᵢ )

// Gate: top-K에 들면 그대로, 아니면 0
gi,t = si,t if si,t ∈ Top-K, else 0

// Output: 선택된 expert들의 가중합 + residual
hₜ = Σᵢ gi,t · FFNᵢ(uₜ) + uₜ

흥미로운 사실: router를 복잡하게 만들 필요가 없습니다. 학습된 router를 단순한 hash function K개로 대체해도 거의 비슷한 성능이 나옵니다. "어떻게 배정하느냐"보다 "expert가 많은 것" 자체가 더 중요하다는 의미입니다.

05 · Load Balancing

훈련의 핵심 문제 — 죽은 expert

Top-K 선택은 미분 불가능합니다. Gradient는 선택된 expert들에게만 흐릅니다. 이로 인해 심각한 문제가 발생합니다.

훈련 시간 → 초기 (랜덤) E1 (0.31) ←선택 E2 (0.28) ←선택 E3 (0.22) E4 (0.19) gradient → E1, E2만 몇 스텝 후 E1 (0.58) ←선택 E2 (0.46) ←선택 E3 (0.22) 변화없음 E4 (0.19) 변화없음 반복... 훈련 후반 E1 (독점!) E2 ☠ DEAD ☠ DEAD 문제: MoE를 쓰는 이유 자체가 사라짐 파라미터는 N개 있는데 실제론 1~2개짜리 모델 / 특정 GPU에만 부하 몰려 병렬 처리 효율 붕괴
Fig 4. Load balancing 없이는 소수의 expert가 전체 토큰을 독점한다

해결책 1 — Auxiliary Load Balancing Loss

// 전체 loss = 언어 모델링 loss + 보조 loss
total = ℒLM + α · ℒbalance

// 보조 loss: 많이 쓰인 expert에게 페널티
balance = N · Σᵢ fᵢ · Pᵢ

fᵢ = 배치에서 expert i에게 실제 라우팅된 토큰 비율 (non-differentiable)
Pᵢ = softmax 기반 확률 (differentiable)
GRADIENT FLOW — ∂ℒ_balance / ∂Pᵢ = N · fᵢ E1 f=0.74 ↓ P₁ 낮춰! E2 f=0.13 E3 f=0.07 E4 f≈0 ↑ P₄ 올려! 보조 loss 적용 후 E1 E2 E3 E4 균등하게 분산됨 ✓
Fig 5. Auxiliary loss의 gradient 작동 원리 — 많이 쓰인 expert의 확률을 낮추고, 적게 쓰인 expert의 확률을 높인다

해결책 2 — DeepSeek-V3의 Auxiliary-loss-free 방식

보조 loss는 LM 성능을 약간 희생시킵니다. DeepSeek-V3는 더 우아한 방법을 씁니다. 각 expert에게 bias bᵢ를 추가합니다.

선택 기준

sᵢ,t + bᵢ 기준으로 top-K 선택

bias를 포함해서 어떤 expert를 쓸지 결정.

가중치 계산

sᵢ,t 만으로 가중합

실제 출력 합산엔 bias 제외. LM loss 오염 없음.

너무 많이 쓰인 경우

bᵢ ← bᵢ − γ

다음 배치에서 선택될 확률 낮춤.

너무 적게 쓰인 경우

bᵢ ← bᵢ + γ

다음 배치에서 선택될 확률 높임.

06 · Expert 설계

Fine-grained & Shared Experts

DeepSeekMoE (2024)가 도입한 두 가지 아이디어가 현재 표준입니다.

표준 MoE (N=4, K=2) Expert 1 d_ff = 4d Expert 2 d_ff = 4d Expert 3 Expert 4 C(4,2) = 6가지 조합 Fine-grained (N=8, K=4) e1 d_ff=d e2 d_ff=d e3 d_ff=d e4 d_ff=d e5 e6 e7 e8 C(8,4) = 70가지 조합! 총 FLOPs 동일 (4×d = 4d), 파라미터 동일 (8×d = 4×2d) 하지만 훨씬 다양한 expert 조합 가능
Fig 6. Fine-grained experts — 같은 FLOPs/파라미터, 훨씬 많은 조합의 다양성

Shared experts는 라우팅 없이 모든 토큰이 항상 사용하는 expert입니다. 모든 토큰에 공통으로 필요한 정보를 처리하는 역할입니다. DeepSeek, Llama 4 등이 채택했지만, OLMoE 실험에서는 효과가 없었다는 상반된 결과도 존재합니다.

07 · 정리

같은 compute, 더 나은 모델

Scaling law는 "더 좋은 모델 = 더 많은 N과 D"라고 말합니다. MoE는 이 관계에서 FLOPs를 고정한 채로 N을 늘리는 구조적 해결책입니다.

훈련 효율

같은 FLOPs 예산으로 dense보다 훨씬 낮은 loss에 도달. Switch Transformer는 7배 속도 향상 보고.

🚀

추론 효율

활성화되는 파라미터가 적어서 추론이 빠름. DeepSeek-V2: 236B 파라미터, 21B만 활성화.

🧠

전문화

expert가 충분하면 도메인 전문화가 자연 발생. 코드/위키/논문 전담 expert가 따로 생김.

⚠️

단점

모든 파라미터를 RAM에 올려야 함. 시스템 복잡도 증가. Dense와 다른 fine-tuning 동작.

DeepSeek V3, Llama 4, Qwen 3, Gemma 4, Kimi K2 — 현재 최전선 모델들이 모두 MoE를 채택하고 있습니다. MoE는 더 이상 연구 주제가 아니라 산업 표준입니다.

LLM Fundamentals · Week 7 · Ensembles & Mixture of Experts
References: Fedus et al. 2022 · Muennighoff et al. 2024 · Dai et al. 2024 · DeepSeek-AI 2024
This post is licensed under CC BY 4.0 by PythonToGo .