只能按从左到右固定顺序逐个预测 token,每个样本仅 1 个预测任务,学习信号稀疏。
在任意顺序、任意位置子集的条件下预测其余所有位置——正向、反向、挖空、多位同时预测,全部涵盖。
任务更难、更通用,迫使模型学到更本质的语言规律。
训练任务更难 → 表征更强 → 智能天花板更高,这是范式级差异,不是参数量的差距。
就如同 AlexNet 之于深度学习,这是 DLLM 的 Inflection Point。
| 维度 | 自回归 | 扩散语言模型 |
|---|---|---|
| 生成方式 | 逐 token 串行输出 | 全局并行去噪生成 |
| 数据效率 | 每样本只学 1 个预测任务 | 多噪声水平,学习信号密集 3-5× |
| 规划能力 | 局部最优,易陷入短视决策 | 全局视野,一次性生成完整动作序列 |
| 推理速度 | 平均 100–300 tokens/s,串行瓶颈 | 可达 1000 tokens/s,并行解码速度大规模领先 |
| 端侧部署 | 量化损耗大,能力下降明显 | 模型紧凑,端侧芯片实时运行 |
| 跨模态 | 多模型级联,误差累积 | 原生支持 Vision+Language+Action 联合生成 |
| 芯片适配 | 串行计算,硬件利用率低 | 并行去噪,天然适配 GPU/NPU 并行架构 |
扩散模型在图像领域应用已久——图像是连续信号; 但语言是离散信号,如何将扩散模型用于语言,一直是业界难题。
针对这一难题,Stanford(Inception Labs)的 SEDD 与 我们的 RDM 是最早的奠基工作, 之后分别衍生出了 Mercury 和 Dream。
Any-Order 训练的理论挑战:所有可能的顺序组合是指数级的——若穷举训练,算力要求将爆炸式增长,scaling 根本无法实现。
扩散智能的核心突破:选择有意义的 order 来学习,而非穷举所有 order—— 将训练算力需求从指数级增长降至多项式规模增长, 让扩散语言模型的 scaling 成为可能。
ICML 2025 Outstanding Paper 演讲,扩散语言模型综述,将 Dream 系列、Google Gemini Diffusion、Inception Labs Mercury 并列为行业三大顶尖 DLLM。
✓ 追平顶尖开源 AR 模型
在通用 Benchmark 上全面覆盖同规模自回归模型,打破扩散模型"能力不足"的固有偏见。
✓ 大幅领先同规模 AR
Countdown、数独、国际象棋等规划任务远超同等规模的自回归模型,甚至超越规模大数十倍的模型。
✓ 高难度任务实现反超
在 LiveCodeBench 高难度任务上首次超越顶尖开源 AR 模型,并涌现出更符合人类编程逻辑的生成顺序。
类似数独这类应用,说明了在需要强规划以及多轮次思考的问题上,扩散语言模型在节约资源以及更强智能上的优势更加明显。
Dream 在代码生成中自发涌现出非从左往右的生成顺序:先生成整体框架,再填充具体实现——更接近人类工程师的真实编程逻辑。
这是扩散模型"全局建模"能力在编程领域的自然涌现,自回归模型无法复现。
华为鸿蒙已提出 Generative UI 的商业化合作意向——根据用户意图实时生成操作界面,响应时间 <200ms。
这正是 DLLM 并行生成速度的天然应用场景,AR 模型无法满足实时性要求。
智能驾驶 · 智能座舱方向的需求旺盛,包括与华为引望、智界、欧卡智舶等的技术合作在学校期间已经开展。
DLLM 大幅降低智驾推理延迟,同时支持规划能力更强的统一 VLA 模型。
我们最看好具身智能方向——Dream-VLA 在 Benchmark 上已全面超越所有 AR-based VLA,泛化能力与数据效率更强。
扩散模型双向建模的动作一致性优势,有望开启具身智能的 ChatGPT 时刻。
VLM:自回归 PaliGemma(SigLIP + Gemma)
Action:扩散 Flow Matching action expert
结构:AR语言头 + 扩散动作头 双头拼接
双向建模使得图像信息和文本信息可以充分交互,带来基模理解生成能力的整体提升。
DLLM 的规划能力可以迁移到多模态模型,生成更优的全局规划,使得动作序列一致性更强。
数据效率:只使用公开数据进行训练时,Dream-VLA 较其他模型有较大的领先。
泛化能力:现有具身智能模型泛化性不足,基本只能在训练场景做好,新场景或细微变化下表现差。Dream-VLA 在模型架构与数据效率上的优势,使其很有可能在未来带来具身智能的 ChatGPT 时刻。
30B 规模接近大参数 SOTA 自回归模型,整体能力全面升级,同时推进行业场景模型适配。
300B 全面比肩顶级自回归模型,实现扩散语言模型在旗舰规模上的全面超越。
1T 规模探索扩散语言模型智能涌现的上限,成为下一代 AI 基础架构的代表性模型。
范式级变化带来的先发优势窗口:1.5–2 年
参考:ChatGPT 出现后,谷歌花了 2 年多才做出性能接近的模型。
自回归厂商由于战略惯性与资源约束,短期内不会将大量资源投入另一范式的基础模型研发:
范式级变化带来的先发优势窗口:1.5–2 年
参考:ChatGPT 出现后,谷歌花了 2 年多才做出性能接近的模型。
自回归厂商由于战略惯性与资源约束,短期内不会将大量资源投入另一范式的基础模型研发:
传统端到端模型因推理能力不足,泛化性能较差——需要记住大量 corner case 才能增强智驾能力,开发成本极高。
而 VLA 模型凭借强大的语言模型推理能力,在复杂场景下具备更强的泛化与规划深度,逐渐成为新一代智驾的主流方案。
Orchestration 指挥家模型负责决策分发——判断哪些任务交给云端大模型处理,哪些任务在本地完成。 DLLM 规划能力更强的特点,使其天然适合部署在一体机上承担这一角色。
涉及隐私或敏感数据的任务由本地 DLLM 直接处理,数据不出本地,合规性与安全性大幅提升。
简单任务本地解决,复杂任务才调用云端——减少不必要的 API 调用,显著降低推理成本。
AR 生成 JSON 是串行的,key-value 必须按顺序逐个生成。 DLLM 可以并行填充 JSON 各字段,对参数多的 tool call 以及需要同时生成多个 tool call 的场景尤其有用。
传统 UI 是静态固定的。Generative UI 由大模型实时生成界面:根据用户意图、上下文、数据动态生成最优交互界面,而非填写预设表单。
UI 代码结构相对简单,复杂度远低于通用编程。Dream-Coder 7B 已可商业落地,而生成速度是决定性因素:交互需 <200ms 响应,AR 模型串行无法满足,DLLM 并行生成天然适配。
AR 模型逐 token 串行生成,生成完整 UI 组件需数秒——Generative UI 因此停留在 Demo 阶段,无法真正产品化。
华为引望智能驾驶合作已经开启,推进 Dream-VLA 在自动驾驶场景的技术适配与集成。
智界汽车已与扩散智能开始智能座舱场景探索,基于 Dream 模型的实时座舱交互方案正在推进中。
欧卡智舶智驾系统千万级研发合同已签署,Dream-VLA 正式进入工业级智能船舶场景。
近期将引入 Momenta 和 地平线 两家 Tier 1 厂商合作——覆盖从感知、规划到端侧部署的完整自动驾驶产业链。
自回归模型每个训练样本只学"预测下一个 token",学习信号极度稀疏。
用数据效率低的范式,在数据稀缺的真实场景落地,效果存在本质局限。
自回归是局部决策,生成每一步只看到前面已生成的内容。
复杂任务需要多步连续决策和全局预判——全局规划,做不好。
自回归模型 token 消耗大,很大原因来自 reasoning 时无法准确找到方向,导致大量无用的回溯尝试——例如发现前后矛盾时用类似 "wait" 的词进行纠正。
相比之下,DLLM 的全局规划能力使得 plan 更加一致,减少自回归模型规划能力不足导致的 token 消耗过大问题。
左图 AR 推理 vs 右图 Diffusion 推理——DLLM 一次性生成全局一致路径,AR 模型需要反复回溯试错。