Chen Yulin's Blog

Posted 2026-02-05Updated 2026-06-22Review11 minutes read (About 1682 words)

Mixture-of-Experts-Survey

# A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications

arXiv:2503.07137

作者：Siyuan Mu (四川农业大学), Sen Lin (休斯顿大学)

研究背景

随着AI基础大模型的快速发展，现代数据集变得越来越多样化和复杂，包含多模态数据（文本、图像、音频）和复杂结构（图、层次关系）。这给大模型发展带来两大挑战：

计算资源消耗巨大：训练和部署大模型的计算成本呈指数增长
异构数据拟��困难：在单一模型中整合冲突或异构知识变得困难，导致训练不稳定和性能次优

混合专家模型（Mixture of Experts, MoE）通过动态选择和激活最相关的子模型来处理输入数据，成为解决这些挑战的有效方案。

研究目标

填补现有MoE综述的空白（过时或缺乏关键领域讨论）
全面总结MoE的基础设计、算法、理论和应用四大关键组件
为研究者提供系统性参考，激发进一步研究

核心概念

MoE基本原理

MoE采用”分而治之”（divide and conquer）策略，与传统密集模型不同：

传统模型：对每个输入激活所有参数
MoE模型：根据输入特征动态选择和激活最相关的参数子集

MoE层数学表示

$$
\text{MoE}(x) = \sum_{i \in \mathcal{I}_D} w_i M_i(x)
$$
其中 $\mathcal{I}_D$ 是被选中专家的索引集，$w_i$ 是第 $i$ 个专家的权重，$M_i(x)$ 是专家网络输出。

研究方法

1. 门控函数（Gating Function）

线性门控（Softmax Gating）

$$
G(x)i = \text{softmax}(\text{TopK}(g(x) + R{noise}, k))i
$$
其中 $g(x)$ 是线性函数计算的门控值，$R{noise}$ 是鼓励专家探索的噪声。

非线性门控

余弦门控（GMoE）：
$$
G(x) = \text{TopK}\left(\text{softmax}\left(\frac{E^T W_{linear} x}{\tau |W_{linear} x| |E|}\right)\right)
$$
指数族分布门控
Soft MoE：使用加权平均而非离散分配

2. 专家网络（Expert Network）

类型	描述	应用场景
FFN专家	替换Transformer中的FFN层	最常用，如Switch Transformer
MoA（混合注意力）	将MoE应用于注意力模块	图像生成、多模态任务
CNN专家	将MoE应用于CNN层	计算机视觉任务

3. 路由策略（Routing Strategy）

Token级路由：基于token表示进行路由决策（最经典）
模态级路由：根据数据模态进行路由（多模态任务）
任务级路由：根据任务ID确定路由（多任务学习）

4. 训练策略

负载均衡损失（Switch Transformer）

$$
\mathcal{L}{aux} = \alpha \cdot N \cdot \sum{i=1}^{N} f_i \cdot Q_i
$$
其中 $f_i$ 是分配给专家 $i$ 的token比例，$Q_i$ 是路由概率比例。

MoA（Mixture-of-Attention）详解

基本架构

MoA将MoE机制引入多头注意力模块，每个注意力头视为一个”专家”。

工作流程

输入token进入MoA层
门控网络计算每个注意力头的重要性分数
选择TopK个最相关的注意力头
仅计算被选中头的输出并加权求和

代码实现核心

class MixtureOfAttention(nn.Module):
    def __init__(self, d_model, num_heads=8, head_dim=64, top_k=2):
        self.attention_experts = nn.ModuleList([
            AttentionExpert(d_model, head_dim) for _ in range(num_heads)
        ])
        self.router = AttentionRouter(d_model, num_heads, top_k)

    def forward(self, x):
        weights, indices, logits = self.router(x)
        output = torch.zeros_like(x)
        for k in range(self.top_k):
            for head_idx in range(self.num_heads):
                mask_k = (indices[:, :, k] == head_idx)
                if mask_k.any():
                    head_output = self.attention_experts[head_idx](x)
                    output[mask_k] += weights[:, :, k][mask_k].unsqueeze(-1) * head_output[mask_k]
        return output

MoA vs 标准多头注意力

特性	标准多头注意力	MoA
头激活	所有头同时激活	动态选择部分头
计算开销	与头数量成正比	仅计算被选中的头
可扩展性	增加头数直接增加计算量	可扩展更多头而不显著增加计算

主要发现

算法应用领域

领域	代表性工作	核心贡献
持续学习	CN-DPM, Lifelong-MoE, PMoE	缓解灾难性遗忘
元学习	MoE-NPs, MixER, Meta-DMoE	增强快速适应能力
多任务学习	MMoE, MOOR, TaskExpert	解耦任务、减少干扰
强化学习	MMRL, MACE, MENTOR	处理非平稳环境

应用领域

领域	任务	代表性工作
计算机视觉	图像分类	V-MoE, Soft MoE, CLIP-MoE
	目标检测	MoCaE, DAMEX
	语义分割	DeepMoE, Swin2-MoSE
	图像生成	RAPHAEL, MEGAN
自然语言处理	NLU	GLaM, MoE-LPR
	机器翻译	GShard, NLLB
	多模态融合	LIMoE, LLaVA-MoLE

代表性大模型

模型	参数规模	主要成就
Switch Transformer	万亿级	预训练速度比T5-Base快7倍
GLaM	万亿级	增强上下文信息利用能力
Mixtral 8×7B	470亿（激活130亿）	高参数效率
DeepSeek系列	-	多项基准SOTA

讨论

优势

计算效率：通过稀疏激活显著降低计算成本
模型容量：可扩展至万亿参数而不成比例增加计算
专业化学习：不同专家专注于不同知识领域
可解释性：通过分析专家分配机制理解模型行为

局限性

训练稳定性：动态专家选择可能导致负载不均衡和模型崩溃
系统复杂性：All-to-All通信模式增加系统设计难度
内存需求：多专家参数存储可能超出单设备容量

未来方向

训练稳定性与负载均衡：开发更鲁棒的训练策略
训练与系统效率：优化硬件-软件协同设计
架构设计：使用元学习或强化学习动态调整专家数量
理论发展：深入理解专家路由决策和聚类机制
定制算法设计：探索MoE与对比学习、自监督学习的结合
新应用领域：医疗、机器人、自动驾驶、教育、金融

参考文献

Fedus et al. (2022). Switch Transformers: Scaling to Trillion Parameter Models. JMLR.
Shazeer et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. arXiv.
Riquelme et al. (2021). Scaling Vision with Sparse Mixture of Experts. NeurIPS.
Jiang et al. (2024). Mixtral of Experts. arXiv.

Posted 2025-03-12Updated 2026-06-22Reviewa few seconds read (About 5 words)

Scene Graph Generation- A comprehensive survey

See [[Reconstruct-Anything Literature Review]]

Posted 2024-12-31Updated 2026-06-22Note7 minutes read (About 1016 words)

A Survey of Imitation Learning- Algorithms, Recent Developments, and Challenges

Introduction

IL是区别于传统手动编程来赋予机器人自主能力的方法。
IL 允许机器通过演示（人类演示专家行为）来学习所需的行为，从而消除了对显式编程或特定于任务的奖励函数的需要。
IL主要有两个类别：

行为克隆(BC)
反向强化学习(IRL)

Behavior Cloning

BC 是一种 IL 技术，它将学习行为的问题视为监督学习任务。 BC 涉及通过建立环境状态与相应专家操作之间的映射来训练模型来复制专家的行为。专家的行为被记录为一组state-action pair，也称为演示。在训练过程中，模型学习一个函数，利用这些演示作为输入，将当前状态转换为相应的专家操作。经过训练，模型可以利用这个学习函数来生成遇到新状态的动作。

不需要了解环境的潜在动态，计算效率很高，相对简单的方法。

The covariate shift problem: 测试期间观察到的状态分布可能与训练期间观察到的状态分布有所不同，使得代理在遇到未见过的状态时容易出错，而对于如何进行操作缺乏明确的指导。BC监督方法的问题是，当智能体漂移并遇到分布外状态时，它不知道如何返回到演示的状态。

为了解决这个问题：

Inverse Reinforcement Learning

IRL 涉及一个学徒代理，其任务是推断观察到的演示背后的奖励函数，这些演示被认为源自表现最佳的专家。然后使用推断的奖励函数通过 RL 训练学习代理的策略。

为了解决“政策->奖励函数“的模糊性，有以下三种IRL

maximum-margin methods（奖励函数比任何其他策略在一定程度上更全面地解释最优策略。这本质上意味着找到一个最大化指定利润的解决方案，确保派生的奖励函数捕捉专家行为的本质。）
maximum entropy（处理专家次优性和随机性的有前景的能力）
guided cost learning（旨在优化策略优化内循环内的非线性奖励函数的方法。这种方法通过直接利用系统的原始状态来构建奖励函数，从而改变了传统的 IRL 范式，从而消除了广泛的特征工程的需要。）

Adversarial Imitation Learning

The agent strives to deceive the discriminator by generating trajectories closely resembling those of the expert.

Imitation From Observation

仅通过图像序列来学习，不需要具体的关节动作操作数据。

Unlike the traditional methods, IfO presents a more organic approach to learning from experts, mirroring how humans and animals approach imitation. Humans often learn new behaviors by observing others without detailed knowledge of their actions (e.g., the muscle commands). People learn a diverse range of tasks, from weaving to swimming to playing games, by watching online videos. Despite differences in body shapes, sensory inputs, and timing, humans exhibit an impressive ability to apply knowledge gained from the online demonstrations

将可学习的资源扩大到了线上的视频资源。

Latent Action Policies (LAPOs)

过分析观察到的动态，LAPO 推断出行动空间的底层结构，促进潜在行动策略的训练。然后，这些策略可以进行高效的微调，以达到专家级的性能，从而提供离线和在线场景的适应性。使用包含标记动作的小数据集进行离线微调是可行的，而在线微调可以使用奖励来完成。与依赖标记数据来训练逆动力学模型不同，LAPO直接从观察到的环境动态中导出潜在动作信息，而不需要任何标签。

Challenges And Limitations

。。。

Posted 2024-10-28Updated 2026-06-22Review7 minutes read (About 1119 words)

Augmented Reality and Robotics - A Survey and Taxonomy for AR-enhanced Human-Robot Interaction and Robotic Interfaces

概要

虽然近些年有关AR在人机交互方面应用的研究有很多，但是这些研究大都缺少系统性的分析

Recently, an increasing number of studies in HCI, HRI, and robotics have demonstrated how AR enables better interactions between people and robots. However, often research remains focused on individual explorations and key design strategies, and research questions are rarely analyzed systematically.

本文主要给目前AR人机交互领域做一下分类（基于460篇文章）
AR人机交互主要分为这几种研究维度

approaches to augmenting reality
characteristics of robots
purposes and benefits
classification of presented information
design components and strategies for visual augmentation
interaction techniques and modalities
application domains
evaluation strategies

AR最大的优势就是能够提供超出物理限制的丰富视觉反馈，减少工人的认知负荷
这个研究最终的目标是提供一个对于该领域的共同基础和理解。

Definition, Scope, Contribution, Methodology

HRI & Robotic Interfaces

机器人系统不单指传统工业机器人，在本研究中，我们不局限于任一种机器人。
Robotic interfaces 主要指”Interfaces that use robots or other actuated systems as medium for HCI”.

Contribution

该研究通过design space dimensions来呈现该领域的分类
拓宽了HCI和HRI的文献研究
讨论了促进该领域进一步研究的开放性研究问题和机会
有一个交互式网站 https://ilab.ucalgary.ca/ar-and-robotics/

分类

Approaches to augmenting reality

根据增强现实硬件的布置位置（dimension 1），可以分为

on-body
on-environment
on-robot
根据视觉增强的目标位置（dimension 2），可以分为
augmenting robots
augmenting surroundings

Characteristics of robots

the form factor of robots （机器人类型）
the relationship between the users and robots （n:m）
size and scale of the robots
proximity for interactions (交互距离)

Purposes and benefits

Facilitate Programming （类似毕设）
- 在虚拟3D空间中编辑，可视化路径
- 通过物体识别把现实物体映射到虚拟空间用于抓取
Support Real-time Control and Navigation
Improve Safety （类似毕设中的碰撞检测急停）
Communicate Intent （绘制机器人的意向轨迹）
Increase the Expressiveness （机器人的虚拟义体）

Classification of presented information

robot’s internal information
1. robot’s internal status
2. robot’s software and hardware condition
3. robot’s internal functionality and capability
external information about the environment
1. sensor data from the internal or external sensors
2. camera or video feed
3. information about external objects
4. depth map or 3D reconstructed scene of the environment (就是hololens的环境感知网格)
plan and activity
1. a plan of the robot’s motion and behavior
2. simulation results of the programmed behavior
3. visualization of a target and goal
4. progress of the current task
supplemental content

Design components and strategies for visual augmentation

这篇主要讨论呈现AR内容的方式

UIs and Widgets
1. Menus
2. Information Panels
3. Labels and Annotations
4. Controls and Handles
5. Monitors and Displays
Spatial References and Visualizations (将空间3D图像叠加显示到现实空间中)
1. Points and Locations
2. Paths and Trajectories
3. Areas and Boundaries
4. Other Visualizations（比如空间颜色/热图可视化）
Embedded Visual Effects （相较于Spatial References and Visualizations，不需要包含数据信息）
1. anthropomorphic effects
2. virtual replica
3. texture mapping of physical objects
Anthropomorphic Effects (机器人的社交拟人内容（谁来给增强一下社交拟人功能）)
Virtual Replica and Ghost Effects （虚拟物品）
Texture Mapping Effects based on Shape (例如给衣服换个图案)

Interactions

Dimension-1. Level of Interactivity
Dimension-2. Interaction Modalities

Application Domains

Evaluation strategies

Evaluation through Demonstration (诸如在Seminar,workshop展示功能，示例程序)
Technical Evaluation
1. 延迟测量
2. 物体跟踪误差
3. 成功率
4. 与其他系统的对比（tracking system for example）
User Evaluation（通过访谈，问卷，通常和前两者结合）

Future

使AR-HR更具实用性
1. 头戴式AR设备的追踪误差（陀螺仪），可靠性仍需加强
2. 在户外使用的局限性
对AR HRI的新的设计探索
1. 可以依靠AR设计不局限于物理限制的机器人
2. 更好的开发环境（因为目前的AR开发仍然主要使用平面显示器，可以思考有没有基于AR显示做程序设计的应用）
AR for better decision making(针对用户)
1. 可视化场景数据
2. 可解释性的机器人操作
新颖交互设计
1. 更自然的交互方式（例如更自然地指定任务对象）
2. 进一步融合虚拟和物理世界（让虚拟的交互能影响现实物理（经典最扯的放最后））