같은 비용으로 더 똑똑한 AI를 만들 수 있을까?
Ensemble, Model Soup, 그리고 현대 AI의 표준이 된 Mixture of Experts까지 — 핵심 아이디어를 처음부터 설명합니다.
같은 비용으로
더 똑똑한 AI를
만들 수 있을까?
Ensemble, Model Soup, 그리고 현대 AI의 표준이 된
Mixture of Experts까지 — 핵심 아이디어를 처음부터 설명합니다.
scaling law 이후의 질문
지난 주 scaling law를 통해 "모델을 얼마나 크게, 데이터를 얼마나 써야 하는가"를 배웠습니다. 이번 주의 질문은 그 다음입니다.
같은 compute 예산으로 더 좋은 모델을 만들 수 있는가?
세 가지 전략이 있습니다.
Ensemble
여러 모델의 출력을 합침. 정확하지만 M배 비쌈. LLM엔 거의 안 씀.
Model Soup
fine-tuned 모델들의 가중치를 평균. 추론 비용 동일. 연구 단계.
Mixture of Experts
레이어마다 여러 MLP, 토큰당 일부만 활성화. 최신 모델의 표준.
여러 모델을 합치면 더 좋아진다 — 이론상으로는
Ensemble의 핵심 직관은 간단합니다. 서로 다른 모델은 서로 다른 곳에서 틀립니다. 합치면 서로의 실수를 보완할 수 있어요.
두 가지 합치는 방식
Linear interpolation — OR 논리. 어느 모델이든 하나가 확신하면 전체 확률이 높아집니다.
Log-linear interpolation — AND 논리. 모든 모델이 동의해야 확률이 높아집니다.
그런데 LLM에 왜 안 쓸까?
Ensemble이 효과적이려면 각 모델의 예측이 불안정하고 들쑥날쑥해야(high variance) 합니다. 작은 모델은 초기화나 데이터에 따라 예측이 크게 달라지니 ensemble이 크게 도움됩니다.
반면 LLM은 수백억 파라미터와 방대한 데이터로 학습되어 variance가 이미 낮습니다. 다른 random seed로 두 번 학습해도 비슷한 곳에서 비슷하게 틀려요. 합쳐봤자 얻는 게 없고, 비용(M배 추론)만 늘어납니다.
가중치를 평균내면 더 좋아진다
여러 hyperparameter로 fine-tuning한 모델들을 고르는 대신, 가중치 자체를 평균내는 방법입니다. 추론 비용은 그대로이면서 best single model보다 성능이 높아집니다.
❌ UNIFORM SOUP
모든 fine-tuned 모델을 단순 평균. 나쁜 모델도 포함되어 성능이 희석될 수 있음.
✓ GREEDY SOUP
순차적으로 추가하면서 validation accuracy가 오르면 포함. 베스트 단일 모델을 뛰어넘음.
왜 작동하는가? — Loss Basin
모델의 가중치 공간을 지형도(loss landscape)로 상상해보세요. 가로축은 가중치 값, 세로축은 loss입니다. 학습이 잘 된 모델은 loss가 낮은 움푹 파인 골짜기(basin) 어딘가에 안착합니다.
같은 pretrained 체크포인트에서 fine-tuning을 시작하면, hyperparameter가 달라도 같은 basin 안 어딘가에 떨어집니다. 서로 다른 골짜기로 넘어갈 만큼 멀리 가지 않기 때문에, 평균을 내도 basin 안에 머물고 — loss가 낮습니다.
왜 Frontier LLM에선 안 쓰나?
Frontier LLM이란 현재 기술 최전선의 가장 강력한 모델들(GPT-4, Claude, Gemini 등)을 말합니다. 이 모델들은 pretraining 이후 RLHF(사람의 선호를 reward로 삼는 강화학습)로 넘어가기 때문에, Model Soup의 재료가 되는 대규모 fine-tuning sweep(여러 hyperparameter 조합을 전부 돌려보는 것)을 따로 하지 않습니다. Soup에 쓸 재료 자체가 없는 거예요.
MoE — 같은 FLOPs, 더 많은 파라미터
Scaling law가 말해주는 건 이렇습니다: loss를 낮추려면 파라미터(N)와 데이터(D)를 늘려야 한다. MoE는 여기서 FLOPs를 고정한 채로 N을 늘리는 구조적 해결책입니다.
FLOPs는 K에 비례 (항상 K개만 계산) — 파라미터 수는 N에 비례 (N개 모두 저장).
→ 같은 훈련 비용으로 더 많은 파라미터를 활용할 수 있습니다.
실제 사용 현황
| Model | Total Params | Active Params | Experts (N) | Top-K | Year |
|---|---|---|---|---|---|
| Switch Transformer | ~1T | ~1/128 | 128 | 1 | 2022 |
| Mixtral 8×7B | 47B | 13B | 8 | 2 | 2023 |
| DeepSeek-V2 | 236B | 21B | 160 | 6 | 2024 |
| DeepSeek-V3 | 671B | 37B | 256 | 8 | 2024 |
| Llama 4 Maverick | ~400B | ~17B | 128 | 1 | 2025 |
| Qwen3-235B-A22B | 235B | 22B | 128 | 8 | 2025 |
어떻게 expert를 고르는가?
세 가지 방식이 연구됐습니다.
Token-choice top-K
각 토큰이 점수 높은 K개 expert를 선택. 실증적으로 최우수. Mixtral, DeepSeek, Llama 4 등 현재 표준.
Expert-choice top-K
각 expert가 점수 높은 K개 토큰을 선택. 부하 균형은 자동이지만 일부 토큰이 누락될 수 있음.
Global assignment
토큰-expert 전체를 동시에 최적화 문제로 풀기. 복잡도 높음.
Token-choice Router의 수식
각 expert i는 학습된 벡터 eᵢ ∈ ℝ^d를 가집니다. Attention의 Q-K 내적과 구조가 똑같습니다.
흥미로운 사실: router를 복잡하게 만들 필요가 없습니다. 학습된 router를 단순한 hash function K개로 대체해도 거의 비슷한 성능이 나옵니다. "어떻게 배정하느냐"보다 "expert가 많은 것" 자체가 더 중요하다는 의미입니다.
훈련의 핵심 문제 — 죽은 expert
Top-K 선택은 미분 불가능합니다. Gradient는 선택된 expert들에게만 흐릅니다. 이로 인해 심각한 문제가 발생합니다.
해결책 1 — Auxiliary Load Balancing Loss
Pᵢ = softmax 기반 확률 (differentiable)
해결책 2 — DeepSeek-V3의 Auxiliary-loss-free 방식
보조 loss는 LM 성능을 약간 희생시킵니다. DeepSeek-V3는 더 우아한 방법을 씁니다. 각 expert에게 bias bᵢ를 추가합니다.
선택 기준
sᵢ,t + bᵢ 기준으로 top-K 선택
bias를 포함해서 어떤 expert를 쓸지 결정.
가중치 계산
sᵢ,t 만으로 가중합
실제 출력 합산엔 bias 제외. LM loss 오염 없음.
너무 많이 쓰인 경우
bᵢ ← bᵢ − γ
다음 배치에서 선택될 확률 낮춤.
너무 적게 쓰인 경우
bᵢ ← bᵢ + γ
다음 배치에서 선택될 확률 높임.
Fine-grained & Shared Experts
DeepSeekMoE (2024)가 도입한 두 가지 아이디어가 현재 표준입니다.
Shared experts는 라우팅 없이 모든 토큰이 항상 사용하는 expert입니다. 모든 토큰에 공통으로 필요한 정보를 처리하는 역할입니다. DeepSeek, Llama 4 등이 채택했지만, OLMoE 실험에서는 효과가 없었다는 상반된 결과도 존재합니다.
같은 compute, 더 나은 모델
Scaling law는 "더 좋은 모델 = 더 많은 N과 D"라고 말합니다. MoE는 이 관계에서 FLOPs를 고정한 채로 N을 늘리는 구조적 해결책입니다.
훈련 효율
같은 FLOPs 예산으로 dense보다 훨씬 낮은 loss에 도달. Switch Transformer는 7배 속도 향상 보고.
추론 효율
활성화되는 파라미터가 적어서 추론이 빠름. DeepSeek-V2: 236B 파라미터, 21B만 활성화.
전문화
expert가 충분하면 도메인 전문화가 자연 발생. 코드/위키/논문 전담 expert가 따로 생김.
단점
모든 파라미터를 RAM에 올려야 함. 시스템 복잡도 증가. Dense와 다른 fine-tuning 동작.
DeepSeek V3, Llama 4, Qwen 3, Gemma 4, Kimi K2 — 현재 최전선 모델들이 모두 MoE를 채택하고 있습니다. MoE는 더 이상 연구 주제가 아니라 산업 표준입니다.