Posted 2026-02-06Updated 2026-06-22Review10 minutes read (About 1443 words)

BAGEL: Emerging Properties in Unified Multimodal Pretraining

作者：Chaorui Deng, Deyao Zhu, Kunchang Li 等 (ByteDance Seed)

研究背景

统一多模态理解与生成（Unified Multimodal Understanding and Generation）是当前AI领域的热点方向。GPT-4o、Gemini 2.0等闭源系统展现了强大能力，但开源模型与之仍存在显著差距。现有开源统一模型主要在图文配对数据上训练，缺乏对复杂多模态交错数据（Interleaved Data）的利用。

研究目标

缩小开源统一多模态模型与闭源系统（GPT-4o、Gemini 2.0）之间的性能差距
解决现有模型架构中理解与生成模块之间的信息瓶颈（Bottleneck）问题
构建能够支持复杂多模态推理的大规模交错数据

核心概念

理解与生成之间的瓶颈（Bottleneck）

在采用 External Diffuser 架构的模型中，LLM/VLM 与扩散模型通过轻量级适配器连接：

语言模型生成少量潜在token作为”语义条件”
这些token被传递给扩散模块生成图像
问题：LLM的丰富上下文被压缩到少量token中，导致信息损失，尤其影响长上下文多模态推理

Mixture-of-Transformer-Experts (MoT)

与传统MoE不同，MoT复制整个Transformer层而非仅FFN：

理解专家：处理文本和ViT token
生成专家：处理VAE token
两个专家通过共享自注意力在每层交互

研究方法

架构设计

BAGEL采用无瓶颈的集成Transformer方案：

双视觉编码器：

理解编码器：SigLIP2-so400m/14，捕获语义信息
生成编码器：FLUX VAE，处理像素级信息

训练范式

模态	方法	损失函数
文本	Next-Token-Prediction	Cross-Entropy
视觉	Rectified Flow	MSE

损失权重比：$\text{CE} : \text{MSE} = 0.25 : 1$

广义因果注意力（Generalized Causal Attention）

对于交错多图像生成：

Noised VAE tokens：用于Rectified-Flow训练
Clean VAE tokens：作为后续生成的条件
ViT tokens：统一输入格式，提升交错生成质量

采用Diffusion Forcing策略，对不同图像添加独立噪声级别。

数据构��

数据规模

数据类型	数据量	Token数
纯文本	400M	0.4T
图文配对（理解）	500M	0.5T
图文配对（生成）	1600M	2.6T
交错理解数据	100M	0.5T
交错生成数据（视频）	45M	0.7T
交错生成数据（网页）	20M	0.4T

交错数据构建流程

视频数据：

视频预处理（分割、裁剪、质量过滤）
使用蒸馏的小型VLM生成帧间描述
构建时序对齐的交错序列

网页数据：

两阶段主题筛选（LLM + fastText）
质量过滤（分辨率、清晰度、相关性）
Caption-first策略：为每张图像生成描述并插入其前

推理增强数据（Reasoning-Augmented Data）

受DeepSeek-R1启发，构建50万条推理增强样本：

Text-to-Image生成
自由形式图像操作
概念性编辑

主要发现

涌现能力（Emerging Properties）

论文定义：某能力在早期训练阶段不存在，但在后期训练中出现

不同能力的涌现时间点（达到85%峰值性能所需token数）：

能力	涌现时间点
多模态理解	~0.18T tokens
图像生成	~0.68T tokens
图像编辑	~2.64T tokens
智能编辑（复杂推理）	~3.61T tokens

关键发现：

理解和生成能力最先收敛
编辑能力随后涌现
需要复杂推理的智能编辑能力最后涌现
ViT tokens对智能编辑至关重要（移除后性能下降16%）

架构对比实验

在1.5B模型上对比Dense、MoE、MoT三种架构：

MoT在生成任务上优势最明显
表明理解和生成可能需要不同的参数空间

实验结果

多模态理解（7B参数）

基准	BAGEL	Janus-Pro	Qwen2.5-VL
MMMU	58.6	41.8	49.3
MM-Vet	73.1	55.9	62.8
MathVista	69.3	54.7	68.2
MMVP	67.2	48.3	-

图像生成（GenEval）

模型	Overall
BAGEL (w/ rewriter)	0.88
BAGEL	0.82
Janus-Pro	0.80
FLUX.1-dev	0.82
SD3-Medium	0.74

智能编辑（IntelligentBench）

模型	Score
GPT-4o	78.9
BAGEL w/ Self-CoT	55.3
BAGEL	44.9
Gemini 2.0	57.6
Step1X-Edit	14.9

讨论

优势

无瓶颈架构：理解与生成模块间无损信息交互
涌现能力：首次系统揭示统一多模态预训练的涌现规律
开源贡献：发布代码、模型权重和数据构建协议
推理增强：CoT显著提升复杂任务表现（WISE: +0.18, IntelligentBench: +10.4）

局限性

与GPT-4o在智能编辑上仍有差距（55.3 vs 78.9）
模型规模相对较小（7B active / 14B total）
训练计算成本高（需要大规模交错数据）

未来方向

更大规模训练：探索更大模型和更多数据下的涌现行为
视频生成：论文展示了初步的视频生成能力，有待深入
强化学习：无瓶颈架构为多模态RL提供了基础
世界建模：导航、3D操作等世界建模任务的进一步探索

参考文献

Deng et al. (2025). Emerging Properties in Unified Multimodal Pretraining. arXiv:2505.14683
DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Esser et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (SD3)

Posted 2026-02-03Updated 2026-06-22Review15 minutes read (About 2285 words)

UniDiffuser

论文链接 | GitHub

作者：Fan Bao, Shen Nie, Kaiwen Xue, Chongxuan Li, Shi Pu, Yaole Wang, Gang Yue, Yue Cao, Hang Su, Jun Zhu
发表于：ICML 2023

研究背景

扩散模型（Diffusion Models）在图像生成领域取得了巨大成功，但现有方法主要基于 U-Net 架构。随着 Transformer 在各领域的成功应用，如何将 Transformer 有效地应用于多模态扩散模型成为一个重要研究方向。现有的多模态生成方法通常需要为不同任务（文生图、图生文、联合生成等）设计不同的模型架构。

研究目标

多模态联合建模：用一个统一的框架同时处理图像、文本等多种模态的生成任务
任务统一：用单一模型支持文生图、图生文、联合生成、无条件生成等多种任务
架构创新：设计适合多模态扩散的 Transformer 架构（U-ViT）

核心概念

扩散模型基础

扩散模型通过前向过程逐步向数据添加噪声，再通过反向过程学习去噪，从而实现生成。

多模态独立加噪

UniDiffuser 的核心思想是对不同模态独立添加噪声，使用不同的时间步 $t$ 和 $s$，通过控制时间步实现任务切换。

U-ViT 架构

将 U-Net 的长跳跃连接（Long Skip Connection）引入 Vision Transformer，在浅层和深层之间建立连接。

研究方法

1. 单模态扩散基础公式

前向过程（加噪）

$$q(x_t | x_0) = \mathcal{N}(x_t; \alpha_t x_0, \sigma_t^2 I)$$
参数说明：

$x_0$：原始干净数据
$x_t$：时间步 $t$ 的加噪数据
$\alpha_t, \sigma_t$：噪声调度参数，满足 $\alpha_t^2 + \sigma_t^2 = 1$（VP-SDE 设定）
随着 $t$ 增大，$\alpha_t \to 0$，$\sigma_t \to 1$，数据逐渐变成纯噪声

等价的重参数化表示：
$$x_t = \alpha_t x_0 + \sigma_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$$
这个形式便于采样和训练，$\epsilon$ 是标准高斯噪声。

反向过程（去噪）

扩散模型学习反向过程 $p_\theta(x_{t-1}|x_t)$，通过神经网络预测噪声 $\epsilon_\theta(x_t, t)$，然后恢复 $x_0$：
$$\hat{x}_0 = \frac{x_t - \sigma_t \epsilon_\theta(x_t, t)}{\alpha_t}$$
解释：由 $x_t = \alpha_t x_0 + \sigma_t \epsilon$ 反解得到。预测出噪声后，即可估计原始数据。

2. 多模态联合扩散框架

联合前向过程

对于图文对 $(x_0, y_0)$，独立地对每个模态加噪：
$$q(x_t, y_s | x_0, y_0) = q(x_t | x_0) \cdot q(y_s | y_0)$$
展开形式：
$$x_t = \alpha_t x_0 + \sigma_t \epsilon_x, \quad y_s = \alpha_s y_0 + \sigma_s \epsilon_y$$
关键点：两个模态使用独立的时间步 $t$ 和 $s$，这是实现多任务统一的核心设计。

联合分布的边缘化

数据的联合分布 $q(x_0, y_0)$ 加噪后变为：
$$q(x_t, y_s) = \int q(x_t, y_s | x_0, y_0) q(x_0, y_0) , dx_0 dy_0$$
解释：这是对所有可能的原始数据对进行积分，得到加噪后数据的边缘分布。

3. 统一多任务的核心机制

核心洞察

通过控制 $t$ 和 $s$ 的取值，可以从联合分布中恢复各种边缘分布和条件分布：

时间步设置	对应分布	实现的任务
$t, s > 0$	$q(x_t, y_s)$	联合生成
$t > 0, s = 0$	$q(x_t, y_0) = q(x_t \| y_0) q(y_0)$	文生图
$t = 0, s > 0$	$q(x_0, y_s) = q(y_s \| x_0) q(x_0)$	图生文
$t > 0, s = T$	$q(x_t, y_T) \approx q(x_t) q(y_T)$	无条件图像生成

条件生成的数学原理

当 $s=0$ 时，$y_s = y_0$（文本无噪声），此时：
$$q(x_t, y_0) = q(x_t | y_0) \cdot q(y_0)$$
解释：对 $y$ 不加噪声（$s=0$）在数学上等价于以 $y$ 为条件进行生成。这是一个优雅的设计——不需要修改模型架构，只需控制时间步即可切换任务。

4. 训练目标函数

噪声预测目标

模型 $\epsilon_\theta$ 同时预测两个模态的噪声：
$$[\hat{\epsilon}_x, \hat{\epsilon}y] = \epsilon_\theta(x_t, y_s, t, s)$$
完整训练损失：
$$\mathcal{L}(\theta) = \mathbb{E}{t, s, (x_0, y_0), \epsilon_x, \epsilon_y} \left[ \lambda_t |\epsilon_x - \hat{\epsilon}_x|^2 + \lambda_s |\epsilon_y - \hat{\epsilon}_y|^2 \right]$$
各项说明：

$t, s \sim \mathcal{U}[0, T]$：从均匀分布采样时间步
$(x_0, y_0) \sim q(x_0, y_0)$：从数据集采样图文对
$\epsilon_x, \epsilon_y \sim \mathcal{N}(0, I)$：独立采样两个高斯噪声
$\lambda_t, \lambda_s$：损失权重（通常设为 1）
$|\cdot|^2$：均方误差损失

简化形式（实际训练中常用）：
$$\mathcal{L} = \mathbb{E}\left[|\epsilon_x - \hat{\epsilon}_x|^2 + |\epsilon_y - \hat{\epsilon}_y|^2\right]$$

5. 采样过程

联合采样（DDPM 形式）

从 $t=T$（纯噪声）开始，逐步去噪到 $t=0$：
$$x_{t-1} = \frac{1}{\sqrt{\alpha_{t|t-1}}} \left( x_t - \frac{1-\alpha_{t|t-1}}{\sigma_t} \hat{\epsilon}x \right) + \tilde{\sigma}t z$$
$$y{s-1} = \frac{1}{\sqrt{\alpha{s|s-1}}} \left( y_s - \frac{1-\alpha_{s|s-1}}{\sigma_s} \hat{\epsilon}_y \right) + \tilde{\sigma}_s z’$$
参数说明：

$z, z’ \sim \mathcal{N}(0, I)$：采样的随机噪声（引入随机性）
$\tilde{\sigma}_t$：后验方差，控制采样的随机程度
$\alpha_{t|t-1} = \alpha_t / \alpha_{t-1}$：相邻时间步的比值

条件采样（文生图）

固定 $s=0$（即 $y_s = y_0$ 为输入文本），只对图像进行去噪：
$$x_{t-1} = \frac{1}{\sqrt{\alpha_{t|t-1}}} \left( x_t - \frac{1-\alpha_{t|t-1}}{\sigma_t} \hat{\epsilon}_x(x_t, y_0, t, 0) \right) + \tilde{\sigma}_t z$$
解释：文本时间步固定为 0，模型接收干净文本作为条件，只更新图像。

6. U-ViT 架构中的跳跃连接

U-ViT 在第 $l$ 层和第 $(L-l)$ 层之间添加跳跃连接：
$$h^{(L-l)} = \text{Block}^{(L-l)}\left( \text{Concat}(h^{(L-l-1)}, h^{(l)}) \right)$$
参数说明：

$h^{(l)}$：第 $l$ 层的隐藏状态
$L$：Transformer 总层数
Concat：沿特征维度拼接
拼接后通过线性层降维回原始维度

设计动机：借鉴 U-Net 的成功经验，跳跃连接帮助保留低层的细节信息，有助于生成高质量图像。

7. 分类器自由引导（Classifier-Free Guidance, CFG）

为增强条件生成效果，使用 CFG 技术：
$$\tilde{\epsilon}_x = \epsilon_\theta(x_t, \varnothing, t, 0) + w \cdot \left( \epsilon_\theta(x_t, y_0, t, 0) - \epsilon_\theta(x_t, \varnothing, t, 0) \right)$$
参数说明：

$\varnothing$：空文本条件（null condition）
$w$：引导强度（guidance scale），通常 $w > 1$
第一项：无条件预测
括号内：条件预测与无条件预测的差值（条件信号）

等价形式：
$$\tilde{\epsilon}_x = (1-w) \cdot \epsilon_\theta(x_t, \varnothing, t, 0) + w \cdot \epsilon_\theta(x_t, y_0, t, 0)$$

训练技巧：训练时以一定概率（如 10%）将文本随机替换为空文本，使模型同时学习条件和无条件生成。

模型输入总结

阶段	图像输入	文本输入	时间步
训练	加噪图像 $x_t$	加噪文本 $y_s$	$t, s$ 随机采样
联合生成	纯噪声	纯噪声	$t=s=T \to 0$
文生图	纯噪声	原始文本	$t: T \to 0$, $s=0$
图生文	原始图像	纯噪声	$t=0$, $s: T \to 0$

主要发现

实验结果

MS-COCO 256×256 文生图（零样本）：

方法	FID↓	CLIP Score↑
DALL-E	27.50	-
GLIDE	12.24	-
Stable Diffusion	12.63	0.331
UniDiffuser	9.71	0.322

ImageNet 256×256 类条件生成：

方法	FID↓
ADM	10.94
LDM-4	10.56
DiT-XL/2	9.62
U-ViT-H/2	2.29

讨论

优势

统一框架：单一模型支持多种生成任务，无需为每个任务单独训练
优雅设计：通过时间步控制实现任务切换，不需要修改架构
强大性能：在多个基准上达到 SOTA
可扩展性：在 10 亿参数规模上验证有效

局限性

需要大规模图文对数据进行训练
文本生成质量依赖于 CLIP 编码器的表示能力
推理速度受限于扩散模型的迭代采样

公式速查表

公式	含义
$x_t = \alpha_t x_0 + \sigma_t \epsilon$	前向加噪过程
$q(x_t, y_s \| x_0, y_0) = q(x_t\|x_0) q(y_s\|y_0)$	独立加噪（多任务统一的关键）
$\mathcal{L} = \|\epsilon_x - \hat{\epsilon}_x\|^2 + \|\epsilon_y - \hat{\epsilon}_y\|^2$	训练目标
$s=0 \Rightarrow$ 以文本为条件	任务切换机制
$\tilde{\epsilon} = \epsilon_\varnothing + w(\epsilon_y - \epsilon_\varnothing)$	分类器自由引导

参考文献

Bao, F., et al. (2023). One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale. ICML 2023.
Ho, J., et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023.

Posted 2025-03-18Updated 2026-06-22Notea few seconds read (About 83 words)

(UVtransE) Contextual Translation Embedding for Visual Relationship Detection and Scene Graph Generation

The **Union Visual Translation Embedding network (UVTransE)**, which learns three projection matrices $W_{s}$, $W_{o}$, $W_{u}$ which map the respective feature vectors of the bounding boxes enclosing the subject, object, and union of subject and object into a common embedding space, as well as translation vectors $t_{p}$ (to be consistent with [[(VtransE) Visual Translation Embedding Network for Visual Relation Detection]]) in the same space corresponding to each of the predicate labels that are present in the dataset.

Posted 2025-03-18Updated 2026-06-22Reviewa few seconds read (About 7 words)

Visual Translation Embedding Network for Visual Relation Detection

VTransE

Posted 2025-03-04Updated 2026-06-22Reviewa minute read (About 154 words)

ALBEF

## Align Before Fuse ### Image Encoder 标准的六层self attention ViT，初始化为DeiT论文中的在ImageNet-1K数据集上训练的参数

Text Encoder

使用的backbone是BERT(通过MLM训练)
该研究认为，image encoder的模型大小应该大于text encoder,所以在text encoder这里，只使用六层self attention来提取特征，剩余六层cross attention用于multi-modal encoder。

ITC Loss & Momentum

参考Moco [[Moco- Momentum Contrast for Unsupervised Visual Representation Learning]]

Improve Noisy Web Data

见[[BLIP]]，是沿用的工作

Loss

#### ITC 旨在在融合之前学习更好的单模态表示

ITM

MLM

Posted 2025-03-04Updated 2026-06-22Reviewa few seconds read (About 3 words)

ViLT

Posted 2025-01-06Updated 2026-06-22Notea minute read (About 197 words)

CLIP

https://blog.csdn.net/h661975/article/details/135116957

loss: ITC (Image Text Contrastive)

# image_encoder - ResNet or Vision Transformer 
# text_encoder - CBOW or Text Transformer 
# I[n, h, w, c] - minibatch of aligned images 
# T[n, l] - minibatch of aligned texts 
# W_i[d_i, d_e] - learned proj of image to embed 
# W_t[d_t, d_e] - learned proj of text to embed 
# t - learned temperature parameter  

# extract feature representations of each modality 
I_f = image_encoder(I) #[n, d_i] 
T_f = text_encoder(T) #[n, d_t]  

# joint multimodal embedding [n, d_e] 
I_e = l2_normalize(np.dot(I_f, W_i), axis=1) T
_e = l2_normalize(np.dot(T_f, W_t), axis=1)  

# scaled pairwise cosine similarities [n, n] 
logits = np.dot(I_e, T_e.T) * np.exp(t)  

# symmetric loss function 
labels = np.arange(n) 
loss_i = cross_entropy_loss(logits, labels, axis=0) 
loss_t = cross_entropy_loss(logits, labels, axis=1) 
loss = (loss_i + loss_t)/2

Cross_entropy_loss:

CLIP 本质上是全局图像嵌入，不利于像素对齐特征提取。

BAGEL: Emerging Properties in Unified Multimodal Pretraining

研究背景

研究目标

核心概念

理解与生成之间的瓶颈（Bottleneck）

Mixture-of-Transformer-Experts (MoT)

研究方法

架构设计

训练范式

广义因果注意力（Generalized Causal Attention）

数据构���

数据规模

交错数据构建流程

推理增强数据（Reasoning-Augmented Data）

主要发现

涌现能力（Emerging Properties）

架构对比实验

实验结果

多模态理解（7B参数）

图像生成（GenEval）

智能编辑（IntelligentBench）

讨论

优势

局限性

相关工作

未来方向

参考文献

UniDiffuser: One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

研究背景

研究目标

核心概念

扩散模型基础

多模态独立加噪

U-ViT 架构

研究方法

1. 单模态扩散基础公式

前向过程（加噪）

反向过程（去噪）

2. 多模态联合扩散框架

联合前向过程

联合分布的边缘化

3. 统一多任务的核心机制

核心洞察

条件生成的数学原理

4. 训练目标函数

噪声预测目标

5. 采样过程

联合采样（DDPM 形式）

条件采样（文生图）

6. U-ViT 架构中的跳跃连接

7. 分类器自由引导（Classifier-Free Guidance, CFG）

模型输入总结

主要发现

实验结果

讨论

优势

局限性

相关工作

公式速查表

参考文献

Text Encoder

ITC Loss & Momentum

Improve Noisy Web Data

Loss

ITM

MLM

Archives

Recents

Tags

数据构��