DiffuSpace · 扩散智能
下一代
AI 智能模型
扩散语言模型
扩散智能用扩散模型重构大语言模型底层架构——范式级别的颠覆。
Dream 系列模型在智能涌现、规划能力与推理速度上全面领先同参数量自回归模型。
Dream 7B · 首次超越自回归 范式级创新 Neo Lab
2026.04.12  |  Investor Brief
Science · Why DLLM
扩散语言模型:Any-Order Language Model
📐 自回归模型(AR):固定单向顺序

只能按从左到右固定顺序逐个预测 token,每个样本仅 1 个预测任务,学习信号稀疏。

✗  只能从左往右,无法回看
✗  无法同时建模多个位置的依赖
✗  全局规划能力受结构性限制
🌊 DLLM:Any-Order Language Model

任意顺序、任意位置子集的条件下预测其余所有位置——正向、反向、挖空、多位同时预测,全部涵盖。

✓  任意方向任意顺序建模
✓  每个样本产生指数级数量的预测任务,学习信号密集
✓  天然理解双向依赖、长程关联、全局一致性
① 学习任务更通用 → 智能上限更高

任务更难、更通用,迫使模型学到更本质的语言规律。
训练任务更难 → 表征更强 → 智能天花板更高,这是范式级差异,不是参数量的差距。

② Dream 7B 是奇点 — 全球首个全面超越同规模 AR 的扩散模型

就如同 AlexNet 之于深度学习,这是 DLLM 的 Inflection Point

Solution
扩散语言模型:更强智能 · 更优规划
维度 自回归 扩散语言模型
生成方式 逐 token 串行输出 全局并行去噪生成
数据效率 每样本只学 1 个预测任务 多噪声水平,学习信号密集 3-5×
规划能力 局部最优,易陷入短视决策 全局视野,一次性生成完整动作序列
推理速度 平均 100–300 tokens/s,串行瓶颈 可达 1000 tokens/s,并行解码速度大规模领先
端侧部署 量化损耗大,能力下降明显 模型紧凑,端侧芯片实时运行
跨模态 多模型级联,误差累积 原生支持 Vision+Language+Action 联合生成
芯片适配 串行计算,硬件利用率低 并行去噪,天然适配 GPU/NPU 并行架构
Science · Breakthroughs
两大技术突破 + 行业顶级认可
🔬 技术难点 ①:离散信号问题

扩散模型在图像领域应用已久——图像是连续信号; 但语言是离散信号,如何将扩散模型用于语言,一直是业界难题。

针对这一难题,Stanford(Inception Labs)的 SEDD我们的 RDM 是最早的奠基工作, 之后分别衍生出了 MercuryDream

⚡ 技术难点 ②:扩散智能的核心优势

Any-Order 训练的理论挑战:所有可能的顺序组合是指数级的——若穷举训练,算力要求将爆炸式增长,scaling 根本无法实现。

扩散智能的核心突破:选择有意义的 order 来学习,而非穷举所有 order—— 将训练算力需求从指数级增长降至多项式规模增长, 让扩散语言模型的 scaling 成为可能

🏆 ICML 2025 Outstanding Paper 演讲 · 扩散语言模型综述

ICML 2025 Outstanding Paper 演讲,扩散语言模型综述,将 Dream 系列Google Gemini DiffusionInception Labs Mercury 并列为行业三大顶尖 DLLM

ICML 2025 DLLM Survey
Market Signal · Inception Labs
顶级 VC 已下注:扩散语言模型是下一个范式
💰 Inception Labs · $5000万美元种子轮(2025年11月)
Menlo Ventures
领投方,硅谷顶级 VC
Microsoft M12
微软战略投资部门
NVIDIA NVentures
英伟达战略投资
Snowflake Ventures
数据云巨头投资
Databricks
AI 数据基础设施领导者
Andrew Ng & Andrej Karpathy
AI 领域最权威天使投资人
全球最顶尖的 AI 投资机构——科技巨头、顶级 VC、行业权威——已经用真金白银验证了扩散语言模型赛道的价值
🏆 扩散智能:站在同一赛道,做得更好
  • 扩散智能的 Dream 系列模型与 Inception 的 Mercury 同属扩散语言模型范式
  • HuggingFace 开源下载 140万+,社区验证全球领先
  • 规划任务性能媲美甚至超越 Inception 最新模型
Team
全球领先的扩散语言模型团队
🎓
学术背景:香港大学 NLP 实验室
CMU 博士 + 前 DeepMind 研究员领衔  ·  发表 ICLR、NeurIPS、ACL 等顶会论文数十篇  ·  获 ACL 2024 杰出论文奖
👤
孔令鹏 — CEO
谷歌 DeepMind 早期员工及研究科学家,参与构建谷歌句法分析核心框架 DRAGNN  ·  CMU 博士,师从 ACL Fellow Noah A. Smith  ·  港大计算机系助理教授、博士生导师,HKU NLP 实验室联合主管  ·  顶会论文逾 120 篇,谷歌学术引用逾 11,600 次,h-index 56  ·  ACL 2024 / EACL 2017 杰出论文奖  ·  Dream 系列模型创始人
👤
张涵 — COO
CMU 自然语言处理博士(Dropout) ·  微软研究院 Redmond  ·  AI for Science 创业公司联创
👤
阎开 — CSO
耶鲁大学经济学博士  ·  国际顶级对冲基金管理人(管理金额超百亿人民币等值外币)  ·  负责公司战略与金融行业应用
👤
叶佳成 — 基础模型负责人
港大计算机系博士  ·  扩散语言模型领域核心开创者  ·  Dream 系列模型主要开发者  ·  教育部国家奖学金(前 1%)
👤
龚珊三 — 场景适配负责人
港大计算机系博士  ·  扩散语言模型领域核心开创者  ·  Dream 系列模型主要开发者  ·  ACL 2024 杰出论文奖  ·  腾讯犀牛鸟精英计划优秀学生
👤
冯夏冲 — 产品负责人
香港大学博士后研究员  ·  哈尔滨工业大学博士  ·  黑龙江省人工智能学会优博  ·  负责产品落地与应用场景开发
Models
Dream 系列模型矩阵
DreamOn
可变长度生成
突破扩散模型变长限制
全球首创
Dream 7B
基础模型 · 70亿参数
通用语言 / 代码 / 规划
各方面指标首次超越同规模自回归模型
Dream-Coder
代码生成专用
补全 + 函数生成
达到商用水平,可集成 IDE
Dream-VL
视觉语言模型
图像 / 视频理解
多模态对话
Dream-VLA
视觉-语言-动作模型
端到端具身智能规划
仿真及真实环境验证

HuggingFace 下载量超过 140 万次  ·  学术界与工业界广泛引用
Model Performance
Dream 7B:全面媲美甚至超越同规模自回归模型
140万+
HuggingFace 累计下载量
7B
参数规模
首次
扩散模型全面超越同规模 AR
📊 通用语言能力

✓ 追平顶尖开源 AR 模型

在通用 Benchmark 上全面覆盖同规模自回归模型,打破扩散模型"能力不足"的固有偏见。

🧩 规划 / Reasoning

✓ 大幅领先同规模 AR

Countdown、数独、国际象棋等规划任务远超同等规模的自回归模型,甚至超越规模大数十倍的模型。

💻 代码生成

✓ 高难度任务实现反超

在 LiveCodeBench 高难度任务上首次超越顶尖开源 AR 模型,并涌现出更符合人类编程逻辑的生成顺序。

Benchmark Results
达到同规模顶尖 AR 模型效果,规划类任务远超同规模 AR
Dream 7B Benchmark Chart
Dream 7B Benchmark Table
Planning Tasks(Countdown / Sudoku / Trip planning)中,Dream 7B 大幅领先所有同规模及更大规模的 AR 模型
Planning Capability
规划能力:7B 逼近甚至超越 DeepSeek V3(671B)
🔢
Countdown 规划任务 — 7B 追平 / 超越 671B 的 DeepSeek V3
Dream 7B 在 Countdown 规划任务上以极小体量(7B)逼近甚至超越参数量 96 倍的 DeepSeek V3(671B)。这证明了:除了 Scaling,训练方式和架构本身才是能力的根本。
🎯
数独 — 扩散模型全局规划 vs AR 逐步回溯
自回归模型解数独需要消耗大量 token 进行试错回溯——发现矛盾才纠正,效率极低。
Dream 扩散模型从全局同时推理,一次性给出一致的全局解,减少无效推理。
♟️
国际象棋 — 大幅优于 AR 及 AR + Long-CoT
自回归模型(S-A 类)每次只能预测一步,即便加上 Long-CoT 也无法突破局部最优。
Dream 一次预测多 token 的能力使其可以对"未来"进行预判,在国际象棋上大幅优于自回归模型,也超越 AR + Long-CoT(类搜索)的基线
核心洞察:规划能力不是靠参数堆出来的——是架构决定的
Demo · Planning
Autoregressive vs Diffusion:数独求解直观对比
Sudoku AR vs Diffusion Demo
💡 核心洞察

类似数独这类应用,说明了在需要强规划以及多轮次思考的问题上,扩散语言模型在节约资源以及更强智能上的优势更加明显。

📊 左(AR)vs 右(Diffusion)
  • AR:token-by-token,需 349 步试错回溯
  • Diffusion:全局并行去噪,30步完成
  • 步数比:约 11× 效率优势
Planning Data
Countdown & Sudoku:Dream 7B 大幅领先,逼近 DeepSeek V3 671B
Countdown and Sudoku Planning Charts
左:Countdown(位数越多越难)  |  右:4×4 数独填数准确率   —   Dream 7B(蓝线)始终领先,高难度下仍优于 DeepSeek V3 671B(灰虚线)
Coding · Performance
代码能力首次反超顶尖开源 AR 模型
💻 代码生成能力
  • 大幅超越此前所有开源扩散模型
  • 整体追平顶尖开源 AR 模型
  • LiveCodeBench 高难度任务上实现性能反超
  • HumanEval 82.9 · MBPP 79.6 · EvalPlus 73.1
Dream-Coder Benchmark
Coding · Emergent Behavior
涌现出新型编程逻辑:框架先行,细节后填
🧠 全局建模的自然涌现

Dream 在代码生成中自发涌现出非从左往右的生成顺序:先生成整体框架,再填充具体实现——更接近人类工程师的真实编程逻辑。


这是扩散模型"全局建模"能力在编程领域的自然涌现,自回归模型无法复现。

DEMO 1
Coder Demo 1
DEMO 2
Coder Demo 2
Unified Multimodal Diffusion
一个扩散模型,同时理解与生成文本 + 图像
这是一个统一的扩散多模态模型——输入可以是图片或文字,输出同样可以是图片或文字。

图像与文本在同一框架下混合训练,通过 Diffusion 的双向 Attention 进行联合建模,使视觉理解、视觉生成与语言智能能够更自然地融合——从而获得更强的建模能力与更统一的多模态推理过程。

交错的多模态 token、掩码去噪与双向注意力机制,在统一架构中实现:读取图像、理解文本、生成文本、生成图像,甚至可以用图像 token 进行思考推理
👉 请看示例(单独演示)
Commercialization · Overview
技术优势已吸引多类商业需求,我们最看好具身智能
凭借扩散语言模型的核心优势——速度快(并行生成)、规划能力强(全局视野)、智能上限更高、本地部署模型已发布——以及 Dream 系列模型在 Benchmark 上的突破性表现,在学校期间,已有多类真实商业需求主动找到我们合作。
📱 Generative UI

华为鸿蒙已提出 Generative UI 的商业化合作意向——根据用户意图实时生成操作界面,响应时间 <200ms。

这正是 DLLM 并行生成速度的天然应用场景,AR 模型无法满足实时性要求。

🚗 智能驾驶 · 智能座舱

智能驾驶 · 智能座舱方向的需求旺盛,包括与华为引望、智界、欧卡智舶等的技术合作在学校期间已经开展。

DLLM 大幅降低智驾推理延迟,同时支持规划能力更强的统一 VLA 模型。

🤖 具身智能(最看好)

我们最看好具身智能方向——Dream-VLA 在 Benchmark 上已全面超越所有 AR-based VLA,泛化能力与数据效率更强。

扩散模型双向建模的动作一致性优势,有望开启具身智能的 ChatGPT 时刻。

π0 · Physical Intelligence
π0:Physical Intelligence
🏗️ π0 架构详情

VLM:自回归 PaliGemma(SigLIP + Gemma)
Action:扩散 Flow Matching action expert
结构:AR语言头 + 扩散动作头 双头拼接

📅 π0 演进时间线
2024.10
π₀ 发布
PaliGemma + Flow Matching · AR+扩散双头
2025.04
π₀.5
开放世界初步泛化
2025.11
π₀.6
引入强化学习 RL
2026.04
π₀.7
引入世界模型,增强泛化性
⚠ VLM 仍然沿用自回归
π0 架构图 · AR VLM + 扩散 Action Expert 双头结构
π0 architecture
π0 vs Dream-VLA:架构对比
π₀ 架构:AR VLM + 扩散 action expert(拼接)
我们:统一扩散 VLM 骨干(dLLM-VLA,原生整合)
① 全局规划能力更强
dLLM 通过 masked diffusion 对整个序列全局建模,天然规避 AR 的 error accumulation,长 horizon 任务规划精度显著提升。
② 规划速度更快 · 实时性更强
扩散解码支持 parallel generation,规划时无需逐 token 串行,更快执行任务。
③ 感知理解能力更强
dLLM 双向注意力使语言与视觉信号充分交互,无单向因果掩码限制,视觉-语言 feature 融合更充分,复杂指令理解与场景感知更鲁棒。
🏢 公司背景
Physical Intelligence(π)
旧金山 · 2023年成立
估值约 $11B
Google / DeepMind / Stanford 背景团队
统一扩散架构
规划 · 速度 · 感知
全面领先
Dream-VLA · Vision-Language-Action
Dream-VLA:扩散模型天然适合具身智能
① 双向建模 · 图文充分交互

双向建模使得图像信息和文本信息可以充分交互,带来基模理解生成能力的整体提升。

② 规划能力迁移 · 动作一致性更强

DLLM 的规划能力可以迁移到多模态模型,生成更优的全局规划,使得动作序列一致性更强。

③ 泛化能力和数据效率更强

数据效率:只使用公开数据进行训练时,Dream-VLA 较其他模型有较大的领先。

泛化能力:现有具身智能模型泛化性不足,基本只能在训练场景做好,新场景或细微变化下表现差。Dream-VLA 在模型架构与数据效率上的优势,使其很有可能在未来带来具身智能的 ChatGPT 时刻。

π0 对比表 Dream-VLA 性能
Dream-VLA · 具身智能商业化
Dream-VLA 商业化(具身智能):两种合作模式
模式一(服务于现有做具身大脑的公司,扩散智能作为Tier2厂商)· 语言模型替换 / 强化
为所有使用 VLA 的具身模型/整机公司,提供更领先的语言模型(L)替换或强化其现有架构中的 Language 部分。
  • 对象:本身做 VLA 模型开发的 Tier1 厂商
  • 价值:即插即用,快速提升规划深度与动作一致性
  • 商业形式:模型 License / 模型授权
▸ 低替换成本,快速规模化,农村包围城市
模式二(直接服务于终端机器人厂商,扩散智能直接作为具身大脑提供商)· 训练统一扩散模型
与机器人企业与机器人企业深度合作,共同训练统一的扩散 VLA 模型——将对方的私有场景数据与 Dream 基座模型结合,打造专属的高性能垂直模型。 同时针对市面上现有的不同机器人硬件,在这些硬件上训练和测试统一扩散模型。
  • 对象:具身机器人企业
  • 价值:双方共同研发统一扩散模型,充分发挥扩散模型优势,完成场景数据的积累; 数据积累过程中,扩散智能也会发布能够支持不同类型机器人的下一代大脑
  • 商业形式:联合研发合同 + 通用模型授权/api调用
▸ 让具身机器人公司可以基于统一扩散模型快速实现通用能力
Model Roadmap
模型迭代路线图:30B → 300B → 1T
30B MoE
⏱ 时间线
2026 Q2 — 30B 启动训练
2026 Q4 — 30B 正式发布
💰 训练开销
~500 万美元

30B 规模接近大参数 SOTA 自回归模型,整体能力全面升级,同时推进行业场景模型适配。

300B MoE
⏱ 时间线
2026 Q4 — 300B 启动训练
2027 Q2 — 300B 模型发布
💰 训练开销
~2000 万美元

300B 全面比肩顶级自回归模型,实现扩散语言模型在旗舰规模上的全面超越。

1T+
⏱ 时间线
2027 Q2 — 1T 模型启动训练
2027 Q4 — 1T 模型发布
💰 训练开销
~1 亿美元

1T 规模探索扩散语言模型智能涌现的上限,成为下一代 AI 基础架构的代表性模型。

Roadmap
2026 战略路线图
2026 Q2
完成 2000万美元融资
30B 模型训练启动
7B VLA 找到 3 家头部具身 VLA 合作伙伴,适配语言模型部分
验证具身智能 Tier2 模型厂商模式
▸ 商业意向合同(LOI/MOU)签署
2026 Q3
启动 3000万美元融资
具身模型找到 2 家头部整机厂商
开始联合训练统一 Diffusion VLM 模型
▸ 验证具身智能 Tier1 模型厂商模式
2026 Q4
完成 3000万美元融资
30B 模型正式发布
300B 模型训练启动
发布 Dream-VLA 2.0
▸ 正式商业合同签署 · 首批订单交付
▸ 启动 5000万美元融资
2027 Q1
完成 5000万美元融资
300B 模型持续优化
1T 以上模型训练开始探索
▸ 规模化订单落地

融资节奏
  • 2026 Q2 · 2000万美金
  • 2026 Q3-Q4· 3000万美元
  • 2026 Q4–2027 Q1 · 5000万美元
  • 2027 Q2–Q4 · 1亿美元
团队扩张
  • 2026 Q2–Q3:扩展至 10+ 算法研究员 & 10+ 基础设施工程师
  • 2026 Q4–2027 Q2:扩展至 50 人技术团队
Frontier
更强智能探索:扩散模型的两个独特优势
天然适合 AI for AI:优化自回归模型的更优路径
扩散语言模型建模的信息远比自回归模型丰富——自回归只建模"通过前面信息预测后面",而扩散模型建模的是全局信息:既有从前往后,也有从后往前,整体同时预测。

这意味着扩散模型天然掌握更完整的语言结构,是探索用 AI 优化 AI(AI for AI)路径中更具潜力的基础架构。
Latent Thinking:更像人类的思考方式
自回归大模型的思考过程必须把每一个字都显式输出,再以此为基础继续推理——思考即输出,无法跳跃。

扩散模型的生成过程是天然的去噪过程:在推理时存在大量latent 中间状态,这些状态不需要输出最终 token,而是在更内隐、更抽象的层面直接进行思考与推理。

这与人类思维方式更为接近——思考不必逐字说出,推理可以在脑中直接完成。
更强智能 · 更优规划
天花板更高
越来越多的研究证明,扩散语言模型是比自回归更具潜力的基础模型范式——更强智能,更优规划,天花板更高。

我们的长远使命:在模型参数规模追近的同时,各方面指标全面超越自回归模型。
Competition
竞争对手 自回归厂商(OpenAI · Google · Antropic · 国内六小龙)
🔵 自回归厂商由于战略惯性与资源约束,短期内不会将大量资源投入另一范式的基础模型研发:

范式级变化带来的先发优势窗口:1.5–2 年

参考:ChatGPT 出现后,谷歌花了 2 年多才做出性能接近的模型。


自回归厂商由于战略惯性与资源约束,短期内不会将大量资源投入另一范式的基础模型研发:

扩散模型的预训练与后训练 Infra 需要大量重建,无法复用自回归现有工程积累
综合掌握这个范式训练的人才数量全球仍然极少,招募和培养需要时间
自回归厂商由于战略惯性与资源约束,短期内不会将大量资源投入另一范式的基础模型研发
🔵 范式级变化带来的先发优势窗口 1.5–2年

范式级变化带来的先发优势窗口:1.5–2 年

参考:ChatGPT 出现后,谷歌花了 2 年多才做出性能接近的模型。


自回归厂商由于战略惯性与资源约束,短期内不会将大量资源投入另一范式的基础模型研发:

扩散模型的预训练与后训练 Infra 需要大量重建,无法复用自回归现有工程积累
综合掌握这个范式训练的人才数量全球仍然极少,招募和培养需要时间
自回归厂商由于战略惯性与资源约束,短期内不会将大量资源投入另一范式的基础模型研发
Appendix
附录
Agent 能力 · 竞争对手 · 补充材料
Autonomous Driving
DLLM 大幅降低智驾延迟,提升实时性与安全性
🧠 VLA 成为智驾主流方向

传统端到端模型因推理能力不足,泛化性能较差——需要记住大量 corner case 才能增强智驾能力,开发成本极高。

VLA 模型凭借强大的语言模型推理能力,在复杂场景下具备更强的泛化与规划深度,逐渐成为新一代智驾的主流方案

🚗 智驾痛点与 DLLM 优势
  • 智驾 ~70% 延迟来自语言 token 推理
  • 引入 DLLM 可大幅降低推理延迟,实时性更好、安全性更高
  • 推理深度更强,规划质量更优
  • 需要同时规划 N 步动作的场景,DLLM 天然适合
NVIDIA Alpamayo — Trajectory Diffusion 架构(取自论文)
AD Architecture
Agent · Orchestration
指挥家模型:DLLM 天然适合本地 Orchestration
🎼 什么是 Orchestration?

Orchestration 指挥家模型负责决策分发——判断哪些任务交给云端大模型处理,哪些任务在本地完成。 DLLM 规划能力更强的特点,使其天然适合部署在一体机上承担这一角色。

🔒 敏感数据保护

涉及隐私或敏感数据的任务由本地 DLLM 直接处理,数据不出本地,合规性与安全性大幅提升。

💰 大幅节省 Token 成本

简单任务本地解决,复杂任务才调用云端——减少不必要的 API 调用,显著降低推理成本。

用户请求
🎼 本地 DLLM
Orchestration
规划 · 分发 · 执行简单任务
敏感数据不出本地
复杂任务 ↗
结果 ↙
☁️ 云端大模型
复杂推理
高难度任务
按需调用,省成本
Agent · Parallel Tool Calling
并行工具调用:DLLM 重新定义 Agent 执行速度
⚡ 并行 JSON 工具调用

AR 生成 JSON 是串行的,key-value 必须按顺序逐个生成。 DLLM 可以并行填充 JSON 各字段,对参数多的 tool call 以及需要同时生成多个 tool call 的场景尤其有用

Demo · dllmtoolcall.html
Dream-Coder · Generative UI
Generative UI:Dream-Coder 商业化最自然的场景
🖥️ 什么是 Generative UI?

传统 UI 是静态固定的。Generative UI 由大模型实时生成界面:根据用户意图、上下文、数据动态生成最优交互界面,而非填写预设表单。

89亿美元
AI设计工具市场(2025)
260亿+美元
2030年预测(CAGR 24%)
真实 TAM:操作系统、App、网站前端全面替代 → 千亿美元级范式迁移
💡 为什么 7B 模型就能商业化?

UI 代码结构相对简单,复杂度远低于通用编程。Dream-Coder 7B 已可商业落地,而生成速度是决定性因素:交互需 <200ms 响应,AR 模型串行无法满足,DLLM 并行生成天然适配。

🐢 AR 模型的瓶颈

AR 模型逐 token 串行生成,生成完整 UI 组件需数秒——Generative UI 因此停留在 Demo 阶段,无法真正产品化。

🎯 落地场景
  • 手机操作系统原生渲染——华为鸿蒙已表达商业化合作意向
  • 智能座舱:驾驶状态实时生成最优操控界面
  • 企业 SaaS:根据角色/数据动态生成报表与操作面板
  • 消费 AI:聊天即界面,无需固定 UI 流程
  • 次抛软件:消费者需求实时重写,无需架构师级模型,极度重视实现速度——无感即出功能,DLLM 并行生成天然适配
Dream-VLA · 智能驾驶与座舱商业化
Dream-VLA 商业化(智能驾驶与座舱)
✅ 已落地 / 已开启
🚗 华为引望(智能驾驶)

华为引望智能驾驶合作已经开启,推进 Dream-VLA 在自动驾驶场景的技术适配与集成。

🚙 智界汽车(智能座舱)

智界汽车已与扩散智能开始智能座舱场景探索,基于 Dream 模型的实时座舱交互方案正在推进中。

🚢 欧卡智舶(智能船舶)

欧卡智舶智驾系统千万级研发合同已签署,Dream-VLA 正式进入工业级智能船舶场景。

🔄 近期引入
🤝 Momenta · 地平线(Tier 1 厂商)

近期将引入 Momenta地平线 两家 Tier 1 厂商合作——覆盖从感知、规划到端侧部署的完整自动驾驶产业链。

💡 为什么 DLLM 更适合智驾
  • 智驾约 70% 延迟来自语言 token 推理——DLLM 速度领先 3×
  • 需要同时规划 N 步动作,DLLM 全局并行天然适配
  • 推理深度更强,复杂路况决策质量更高
智驾 × 座舱融合趋势:智能驾驶与智能座舱在未来趋于融合——用户需要越来越聪明的语音助手,而语音助手的大语言模型推理能力越强,智驾表现也随之提升。一套 Dream-VLA 统一模型,同时赋能语音助手与智能驾驶,是扩散智能在整车平台上的核心差异化。
📊 合作格局
华为引望 · 智界 · 欧卡智舶 · 近期 Momenta · 地平线
覆盖乘用车 · 商用车 · 工业船舶全场景
Problem
自回归模型的两个根本缺陷
❶ 数据效率低

自回归模型每个训练样本只学"预测下一个 token",学习信号极度稀疏。


用数据效率低的范式,在数据稀缺的真实场景落地,效果存在本质局限。

❷ 规划能力弱

自回归是局部决策,生成每一步只看到前面已生成的内容。


复杂任务需要多步连续决策和全局预判——全局规划,做不好。


下一代 AI 模型必须同时解决"数据效率"和"规划能力"两大问题。
这不是继续预训练能解决的——这需要换掉底层架构。
Global Planning
全局性规划:DLLM 大幅减少无效 token 消耗
💡 动机

自回归模型 token 消耗大,很大原因来自 reasoning 时无法准确找到方向,导致大量无用的回溯尝试——例如发现前后矛盾时用类似 "wait" 的词进行纠正。

相比之下,DLLM 的全局规划能力使得 plan 更加一致,减少自回归模型规划能力不足导致的 token 消耗过大问题

🎯 走迷宫对比示例

左图 AR 推理 vs 右图 Diffusion 推理——DLLM 一次性生成全局一致路径,AR 模型需要反复回溯试错。

AR 推理 vs Diffusion 推理 · 走迷宫
Maze AR vs Diffusion