Chen Yulin's Blog

Posted 2026-02-05Updated 2026-06-22Review11 minutes read (About 1682 words)

Mixture-of-Experts-Survey

# A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications

arXiv:2503.07137

作者：Siyuan Mu (四川农业大学), Sen Lin (休斯顿大学)

研究背景

随着AI基础大模型的快速发展，现代数据集变得越来越多样化和复杂，包含多模态数据（文本、图像、音频）和复杂结构（图、层次关系）。这给大模型发展带来两大挑战：

计算资源消耗巨大：训练和部署大模型的计算成本呈指数增长
异构数据拟��困难：在单一模型中整合冲突或异构知识变得困难，导致训练不稳定和性能次优

混合专家模型（Mixture of Experts, MoE）通过动态选择和激活最相关的子模型来处理输入数据，成为解决这些挑战的有效方案。

研究目标

填补现有MoE综述的空白（过时或缺乏关键领域讨论）
全面总结MoE的基础设计、算法、理论和应用四大关键组件
为研究者提供系统性参考，激发进一步研究

核心概念

MoE基本原理

MoE采用”分而治之”（divide and conquer）策略，与传统密集模型不同：

传统模型：对每个输入激活所有参数
MoE模型：根据输入特征动态选择和激活最相关的参数子集

MoE层数学表示

$$
\text{MoE}(x) = \sum_{i \in \mathcal{I}_D} w_i M_i(x)
$$
其中 $\mathcal{I}_D$ 是被选中专家的索引集，$w_i$ 是第 $i$ 个专家的权重，$M_i(x)$ 是专家网络输出。

研究方法

1. 门控函数（Gating Function）

线性门控（Softmax Gating）

$$
G(x)i = \text{softmax}(\text{TopK}(g(x) + R{noise}, k))i
$$
其中 $g(x)$ 是线性函数计算的门控值，$R{noise}$ 是鼓励专家探索的噪声。

非线性门控

余弦门控（GMoE）：
$$
G(x) = \text{TopK}\left(\text{softmax}\left(\frac{E^T W_{linear} x}{\tau |W_{linear} x| |E|}\right)\right)
$$
指数族分布门控
Soft MoE：使用加权平均而非离散分配

2. 专家网络（Expert Network）

类型	描述	应用场景
FFN专家	替换Transformer中的FFN层	最常用，如Switch Transformer
MoA（混合注意力）	将MoE应用于注意力模块	图像生成、多模态任务
CNN专家	将MoE应用于CNN层	计算机视觉任务

3. 路由策略（Routing Strategy）

Token级路由：基于token表示进行路由决策（最经典）
模态级路由：根据数据模态进行路由（多模态任务）
任务级路由：根据任务ID确定路由（多任务学习）

4. 训练策略

负载均衡损失（Switch Transformer）

$$
\mathcal{L}{aux} = \alpha \cdot N \cdot \sum{i=1}^{N} f_i \cdot Q_i
$$
其中 $f_i$ 是分配给专家 $i$ 的token比例，$Q_i$ 是路由概率比例。

MoA（Mixture-of-Attention）详解

基本架构

MoA将MoE机制引入多头注意力模块，每个注意力头视为一个”专家”。

工作流程

输入token进入MoA层
门控网络计算每个注意力头的重要性分数
选择TopK个最相关的注意力头
仅计算被选中头的输出并加权求和

代码实现核心

class MixtureOfAttention(nn.Module):
    def __init__(self, d_model, num_heads=8, head_dim=64, top_k=2):
        self.attention_experts = nn.ModuleList([
            AttentionExpert(d_model, head_dim) for _ in range(num_heads)
        ])
        self.router = AttentionRouter(d_model, num_heads, top_k)

    def forward(self, x):
        weights, indices, logits = self.router(x)
        output = torch.zeros_like(x)
        for k in range(self.top_k):
            for head_idx in range(self.num_heads):
                mask_k = (indices[:, :, k] == head_idx)
                if mask_k.any():
                    head_output = self.attention_experts[head_idx](x)
                    output[mask_k] += weights[:, :, k][mask_k].unsqueeze(-1) * head_output[mask_k]
        return output

MoA vs 标准多头注意力

特性	标准多头注意力	MoA
头激活	所有头同时激活	动态选择部分头
计算开销	与头数量成正比	仅计算被选中的头
可扩展性	增加头数直接增加计算量	可扩展更多头而不显著增加计算

主要发现

算法应用领域

领域	代表性工作	核心贡献
持续学习	CN-DPM, Lifelong-MoE, PMoE	缓解灾难性遗忘
元学习	MoE-NPs, MixER, Meta-DMoE	增强快速适应能力
多任务学习	MMoE, MOOR, TaskExpert	解耦任务、减少干扰
强化学习	MMRL, MACE, MENTOR	处理非平稳环境

应用领域

领域	任务	代表性工作
计算机视觉	图像分类	V-MoE, Soft MoE, CLIP-MoE
	目标检测	MoCaE, DAMEX
	语义分割	DeepMoE, Swin2-MoSE
	图像生成	RAPHAEL, MEGAN
自然语言处理	NLU	GLaM, MoE-LPR
	机器翻译	GShard, NLLB
	多模态融合	LIMoE, LLaVA-MoLE

代表性大模型

模型	参数规模	主要成就
Switch Transformer	万亿级	预训练速度比T5-Base快7倍
GLaM	万亿级	增强上下文信息利用能力
Mixtral 8×7B	470亿（激活130亿）	高参数效率
DeepSeek系列	-	多项基准SOTA

讨论

优势

计算效率：通过稀疏激活显著降低计算成本
模型容量：可扩展至万亿参数而不成比例增加计算
专业化学习：不同专家专注于不同知识领域
可解释性：通过分析专家分配机制理解模型行为

局限性

训练稳定性：动态专家选择可能导致负载不均衡和模型崩溃
系统复杂性：All-to-All通信模式增加系统设计难度
内存需求：多专家参数存储可能超出单设备容量

未来方向

训练稳定性与负载均衡：开发更鲁棒的训练策略
训练与系统效率：优化硬件-软件协同设计
架构设计：使用元学习或强化学习动态调整专家数量
理论发展：深入理解专家路由决策和聚类机制
定制算法设计：探索MoE与对比学习、自监督学习的结合
新应用领域：医疗、机器人、自动驾驶、教育、金融

参考文献

Fedus et al. (2022). Switch Transformers: Scaling to Trillion Parameter Models. JMLR.
Shazeer et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. arXiv.
Riquelme et al. (2021). Scaling Vision with Sparse Mixture of Experts. NeurIPS.
Jiang et al. (2024). Mixtral of Experts. arXiv.

Posted 2025-03-14Updated 2026-06-22Reviewa few seconds read (About 3 words)

Visual Relationship Detection with Language Priors

Posted 2024-09-29Updated 2026-06-22Reviewa minute read (About 185 words)

LSTM

背景

LSTM主要是用于解决递归网络中梯度指数级消失或者梯度爆炸的问题

https://www.youtube.com/watch?v=YCzL96nL7j0&t=267s
LSTM和RNN主要的区别就在于：LSTM有两条记忆链，一条短期记忆，一条长期记忆。

主要分成三个模块 - Forget Gate: 决定遗忘多少长期记忆 - Input Gate: 决定将多少当前输入存入长期记忆 - Output Gate: 基于短期记忆和输入决定输出的百分比，乘上长期记忆激活后的值，获得新的短期记忆，也就是输出。

这里gate的概念启发了grConv[[On the Properties of Neural Machine Translation= Encoder–Decoder Approaches]]

Posted 2024-09-27Updated 2026-06-22Review3 minutes read (About 376 words)

On the Properties of Neural Machine Translation= Encoder–Decoder Approaches

概要

对比了 RNN Encoder-Decoder 和 GRU(new proposed)之间的翻译能力，发现GRU更具优势且能够理解语法。

背景

RNN Encoder–Decoder

因为会把要翻译的语句映射到固定长度的vector所以训练需要的内存空间是固定的且很小，500M和几十G形成对比。
但也有问题：

As this approach is relatively new, there has not been much work on analyzing the properties and behavior of these models. For instance: What are the properties of sentences on which this approach performs better? How does the choice of source/target vocabulary affect the performance? In which cases does the neural machine translation fail?

不够Fancy的地方：

随着源句长度的增加，神经机器翻译模型的性能迅速下降。
词汇量的大小对翻译效果有很大的影响。

Encoder For Variable-Length Sequences

RNN

递归神经网络(RNN)在变长序列x = ( x1 , x2, … , xT)上通过保持隐藏状态h随时间变化而工作

grConv

这是本文提出的用于替换RNN Encoder-Decoder 中的Encoder的一种新的神经网络，文中称为：gated recursive convolutional neural network (grConv)

如图a为Recursive convolutional NN (这是啥？) #question 图b为grConv grConv则是让隐藏层通过训练w参数可以从三个输入中挑选：

其中 $\omega_c+\omega_l+\omega_r=1$ 由此便获得了如图c,d所示的自主学习语法结构的能力。

非常直观的图 #paradigm

Posted 2024-09-27Updated 2026-06-22Reviewa minute read (About 112 words)

Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

Background: RNN

首先介绍了RNN通过hidden state来实现记忆力功能

但指出RNN的训练有梯度消失/爆炸的现象，且记忆会沿序列长度的增加而指数下降，缺乏长期记忆能力。解决梯度消失/爆炸目前有梯度裁剪和二阶梯度的方法，但成效并不显著

Gated RNN

[[On the Properties of Neural Machine Translation= Encoder–Decoder Approaches]]

Posted 2024-09-27Updated 2026-06-22Reviewa minute read (About 203 words)

Attention Is All You Need

概要

Transformer是一种基于注意力机制，完全不需要递归或卷积网络的序列预测模型，且更易于训练

背景

介绍了Gated-RNN/LSTM的基本逻辑[[Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling]]，指出:
这种固有的顺序性质阻碍了训练示例中的并行化，这在较长的序列长度上变得至关重要，因为内存限制限制了示例之间的批处理，虽然后续有相关工作优化了一些性能，但是基本的限制并没有解除。