같은 비용으로 더 똑똑한 AI를 만들 수 있을까?

Ensemble, Model Soup, 그리고 현대 AI의 표준이 된 Mixture of Experts까지 — 핵심 아이디어를 처음부터 설명합니다.

Posted May 15, 2026

By PythonToGo

15 min read

같은 비용으로 더 똑똑한 AI를 만들 수 있을까?

LLM Fundamentals · Week 7

같은 비용으로
더 똑똑한 AI를
만들 수 있을까?

Ensemble, Model Soup, 그리고 현대 AI의 표준이 된
Mixture of Experts까지 — 핵심 아이디어를 처음부터 설명합니다.

SCROLL

00 · 큰 그림

scaling law 이후의 질문

지난 주 scaling law를 통해 "모델을 얼마나 크게, 데이터를 얼마나 써야 하는가"를 배웠습니다. 이번 주의 질문은 그 다음입니다.

같은 compute 예산으로 더 좋은 모델을 만들 수 있는가?

세 가지 전략이 있습니다.

🎯

Ensemble

여러 모델의 출력을 합침. 정확하지만 M배 비쌈. LLM엔 거의 안 씀.

🍲

Model Soup

fine-tuned 모델들의 가중치를 평균. 추론 비용 동일. 연구 단계.

⚡

Mixture of Experts

레이어마다 여러 MLP, 토큰당 일부만 활성화. 최신 모델의 표준.

01 · Ensemble

여러 모델을 합치면 더 좋아진다 — 이론상으로는

Ensemble의 핵심 직관은 간단합니다. 서로 다른 모델은 서로 다른 곳에서 틀립니다. 합치면 서로의 실수를 보완할 수 있어요.

두 가지 합치는 방식

Linear interpolation — OR 논리. 어느 모델이든 하나가 확신하면 전체 확률이 높아집니다.

P(y|x) = Σₘ Pₘ(y|x) \cdot P(m|x)

Log-linear interpolation — AND 논리. 모든 모델이 동의해야 확률이 높아집니다.

P(y|x) = softmax( Σₘ λₘ \cdot log Pₘ(y|x) )

그런데 LLM에 왜 안 쓸까?

Ensemble이 효과적이려면 각 모델의 예측이 불안정하고 들쑥날쑥해야(high variance) 합니다. 작은 모델은 초기화나 데이터에 따라 예측이 크게 달라지니 ensemble이 크게 도움됩니다.

반면 LLM은 수백억 파라미터와 방대한 데이터로 학습되어 variance가 이미 낮습니다. 다른 random seed로 두 번 학습해도 비슷한 곳에서 비슷하게 틀려요. 합쳐봤자 얻는 게 없고, 비용(M배 추론)만 늘어납니다.

Fig 1. Variance가 높을수록 Ensemble의 이득이 크다

02 · Model Soup

가중치를 평균내면 더 좋아진다

여러 hyperparameter로 fine-tuning한 모델들을 고르는 대신, 가중치 자체를 평균내는 방법입니다. 추론 비용은 그대로이면서 best single model보다 성능이 높아집니다.

❌ UNIFORM SOUP

모든 fine-tuned 모델을 단순 평균. 나쁜 모델도 포함되어 성능이 희석될 수 있음.

✓ GREEDY SOUP

순차적으로 추가하면서 validation accuracy가 오르면 포함. 베스트 단일 모델을 뛰어넘음.

왜 작동하는가? — Loss Basin

모델의 가중치 공간을 지형도(loss landscape)로 상상해보세요. 가로축은 가중치 값, 세로축은 loss입니다. 학습이 잘 된 모델은 loss가 낮은 움푹 파인 골짜기(basin) 어딘가에 안착합니다.

Fig 2. 같은 basin 안에 있으면 평균내도 안전하다

같은 pretrained 체크포인트에서 fine-tuning을 시작하면, hyperparameter가 달라도 같은 basin 안 어딘가에 떨어집니다. 서로 다른 골짜기로 넘어갈 만큼 멀리 가지 않기 때문에, 평균을 내도 basin 안에 머물고 — loss가 낮습니다.

왜 Frontier LLM에선 안 쓰나?

Frontier LLM이란 현재 기술 최전선의 가장 강력한 모델들(GPT-4, Claude, Gemini 등)을 말합니다. 이 모델들은 pretraining 이후 RLHF(사람의 선호를 reward로 삼는 강화학습)로 넘어가기 때문에, Model Soup의 재료가 되는 대규모 fine-tuning sweep(여러 hyperparameter 조합을 전부 돌려보는 것)을 따로 하지 않습니다. Soup에 쓸 재료 자체가 없는 거예요.

03 · Mixture of Experts

MoE — 같은 FLOPs, 더 많은 파라미터

Scaling law가 말해주는 건 이렇습니다: loss를 낮추려면 파라미터(N)와 데이터(D)를 늘려야 한다. MoE는 여기서 FLOPs를 고정한 채로 N을 늘리는 구조적 해결책입니다.

Fig 3. Dense vs MoE 블록 구조. 실선 = 활성화, 점선 = 비활성

FLOPs는 K에 비례 (항상 K개만 계산) — 파라미터 수는 N에 비례 (N개 모두 저장).
→ 같은 훈련 비용으로 더 많은 파라미터를 활용할 수 있습니다.

실제 사용 현황

Model	Total Params	Active Params	Experts (N)	Top-K	Year
Switch Transformer	~1T	~1/128	128	1	2022
Mixtral 8×7B	47B	13B	8	2	2023
DeepSeek-V2	236B	21B	160	6	2024
DeepSeek-V3	671B	37B	256	8	2024
Llama 4 Maverick	~400B	~17B	128	1	2025
Qwen3-235B-A22B	235B	22B	128	8	2025

04 · 라우팅 함수

어떻게 expert를 고르는가?

세 가지 방식이 연구됐습니다.

🎫

Token-choice top-K

각 토큰이 점수 높은 K개 expert를 선택. 실증적으로 최우수. Mixtral, DeepSeek, Llama 4 등 현재 표준.

🎓

Expert-choice top-K

각 expert가 점수 높은 K개 토큰을 선택. 부하 균형은 자동이지만 일부 토큰이 누락될 수 있음.

🔢

Global assignment

토큰-expert 전체를 동시에 최적화 문제로 풀기. 복잡도 높음.

Token-choice Router의 수식

각 expert i는 학습된 벡터 eᵢ ∈ ℝ^d를 가집니다. Attention의 Q-K 내적과 구조가 똑같습니다.

// Score: 각 expert에 대한 softmax 확률 s i,t = Softmax i ( uₜᵀ \cdot eᵢ ) // Gate: top-K에 들면 그대로, 아니면 0 g i,t = s i,t if s i,t \in Top-K, else 0 // Output: 선택된 expert들의 가중합 + residual hₜ = Σᵢ g i,t \cdot FFNᵢ(uₜ) + uₜ

흥미로운 사실: router를 복잡하게 만들 필요가 없습니다. 학습된 router를 단순한 hash function K개로 대체해도 거의 비슷한 성능이 나옵니다. "어떻게 배정하느냐"보다 "expert가 많은 것" 자체가 더 중요하다는 의미입니다.

05 · Load Balancing

훈련의 핵심 문제 — 죽은 expert

Top-K 선택은 미분 불가능합니다. Gradient는 선택된 expert들에게만 흐릅니다. 이로 인해 심각한 문제가 발생합니다.

Fig 4. Load balancing 없이는 소수의 expert가 전체 토큰을 독점한다

해결책 1 — Auxiliary Load Balancing Loss

// 전체 loss = 언어 모델링 loss + 보조 loss ℒ total = ℒ LM + α \cdot ℒ balance // 보조 loss: 많이 쓰인 expert에게 페널티 ℒ balance = N \cdot Σᵢ fᵢ \cdot Pᵢ fᵢ = 배치에서 expert i에게 실제 라우팅된 토큰 비율 (non-differentiable) Pᵢ = softmax 기반 확률 (differentiable)

Fig 5. Auxiliary loss의 gradient 작동 원리 — 많이 쓰인 expert의 확률을 낮추고, 적게 쓰인 expert의 확률을 높인다

해결책 2 — DeepSeek-V3의 Auxiliary-loss-free 방식

보조 loss는 LM 성능을 약간 희생시킵니다. DeepSeek-V3는 더 우아한 방법을 씁니다. 각 expert에게 bias bᵢ를 추가합니다.

선택 기준

sᵢ,t + bᵢ 기준으로 top-K 선택

bias를 포함해서 어떤 expert를 쓸지 결정.

가중치 계산

sᵢ,t 만으로 가중합

실제 출력 합산엔 bias 제외. LM loss 오염 없음.

너무 많이 쓰인 경우

bᵢ ← bᵢ − γ

다음 배치에서 선택될 확률 낮춤.

너무 적게 쓰인 경우

bᵢ ← bᵢ + γ

다음 배치에서 선택될 확률 높임.

06 · Expert 설계

Fine-grained & Shared Experts

DeepSeekMoE (2024)가 도입한 두 가지 아이디어가 현재 표준입니다.

Fig 6. Fine-grained experts — 같은 FLOPs/파라미터, 훨씬 많은 조합의 다양성

Shared experts는 라우팅 없이 모든 토큰이 항상 사용하는 expert입니다. 모든 토큰에 공통으로 필요한 정보를 처리하는 역할입니다. DeepSeek, Llama 4 등이 채택했지만, OLMoE 실험에서는 효과가 없었다는 상반된 결과도 존재합니다.

07 · 정리

같은 compute, 더 나은 모델

Scaling law는 "더 좋은 모델 = 더 많은 N과 D"라고 말합니다. MoE는 이 관계에서 FLOPs를 고정한 채로 N을 늘리는 구조적 해결책입니다.

⚡

훈련 효율

같은 FLOPs 예산으로 dense보다 훨씬 낮은 loss에 도달. Switch Transformer는 7배 속도 향상 보고.

🚀

추론 효율

활성화되는 파라미터가 적어서 추론이 빠름. DeepSeek-V2: 236B 파라미터, 21B만 활성화.

🧠

전문화

expert가 충분하면 도메인 전문화가 자연 발생. 코드/위키/논문 전담 expert가 따로 생김.

⚠️

단점

모든 파라미터를 RAM에 올려야 함. 시스템 복잡도 증가. Dense와 다른 fine-tuning 동작.

DeepSeek V3, Llama 4, Qwen 3, Gemma 4, Kimi K2 — 현재 최전선 모델들이 모두 MoE를 채택하고 있습니다. MoE는 더 이상 연구 주제가 아니라 산업 표준입니다.

Study, Foundation Models

Foundation Models MoE Scaling

This post is licensed under CC BY 4.0 by PythonToGo .