扩散智能 · BP Deck

DiffuSpace · 扩散智能

下一代
AI 智能模型
扩散语言模型

扩散智能用扩散模型重构大语言模型底层架构——范式级别的颠覆。
Dream 系列模型在智能涌现、规划能力与推理速度上全面领先同参数量自回归模型。

Dream 7B · 首次超越自回归范式级创新 Neo Lab

2026.04.12 | Investor Brief

扩散智能

Science · Why DLLM

扩散语言模型：Any-Order Language Model

📐 自回归模型（AR）：固定单向顺序

只能按从左到右固定顺序逐个预测 token，每个样本仅 1 个预测任务，学习信号稀疏。

✗ 只能从左往右，无法回看
✗ 无法同时建模多个位置的依赖
✗ 全局规划能力受结构性限制

🌊 DLLM：Any-Order Language Model

在任意顺序、任意位置子集的条件下预测其余所有位置——正向、反向、挖空、多位同时预测，全部涵盖。

✓ 任意方向任意顺序建模
✓ 每个样本产生指数级数量的预测任务，学习信号密集
✓ 天然理解双向依赖、长程关联、全局一致性

① 学习任务更通用 → 智能上限更高

任务更难、更通用，迫使模型学到更本质的语言规律。
训练任务更难 → 表征更强 → 智能天花板更高，这是范式级差异，不是参数量的差距。

② Dream 7B 是奇点 — 全球首个全面超越同规模 AR 的扩散模型

就如同 AlexNet 之于深度学习，这是 DLLM 的 Inflection Point。

扩散智能

Solution

扩散语言模型：更强智能 · 更优规划

维度	自回归	扩散语言模型
生成方式	逐 token 串行输出	全局并行去噪生成
数据效率	每样本只学 1 个预测任务	多噪声水平，学习信号密集 3-5×
规划能力	局部最优，易陷入短视决策	全局视野，一次性生成完整动作序列
推理速度	平均 100–300 tokens/s，串行瓶颈	可达 1000 tokens/s，并行解码速度大规模领先
端侧部署	量化损耗大，能力下降明显	模型紧凑，端侧芯片实时运行
跨模态	多模型级联，误差累积	原生支持 Vision+Language+Action 联合生成
芯片适配	串行计算，硬件利用率低	并行去噪，天然适配 GPU/NPU 并行架构

扩散智能

Science · Breakthroughs

两大技术突破 + 行业顶级认可

🔬 技术难点 ①：离散信号问题

扩散模型在图像领域应用已久——图像是连续信号；但语言是离散信号，如何将扩散模型用于语言，一直是业界难题。

针对这一难题，Stanford（Inception Labs）的 SEDD 与 我们的 RDM 是最早的奠基工作，之后分别衍生出了 Mercury 和 Dream。

⚡ 技术难点 ②：扩散智能的核心优势

Any-Order 训练的理论挑战：所有可能的顺序组合是指数级的——若穷举训练，算力要求将爆炸式增长，scaling 根本无法实现。

扩散智能的核心突破：选择有意义的 order 来学习，而非穷举所有 order—— 将训练算力需求从指数级增长降至多项式规模增长，让扩散语言模型的 scaling 成为可能。

🏆 ICML 2025 Outstanding Paper 演讲 · 扩散语言模型综述

ICML 2025 Outstanding Paper 演讲，扩散语言模型综述，将 Dream 系列、Google Gemini Diffusion、Inception Labs Mercury 并列为行业三大顶尖 DLLM。

扩散智能

Market Signal · Inception Labs

顶级 VC 已下注：扩散语言模型是下一个范式

💰 Inception Labs · $5000万美元种子轮（2025年11月）

Menlo Ventures
领投方，硅谷顶级 VC

Microsoft M12
微软战略投资部门

NVIDIA NVentures
英伟达战略投资

Snowflake Ventures
数据云巨头投资

Databricks
AI 数据基础设施领导者

Andrew Ng & Andrej Karpathy
AI 领域最权威天使投资人

全球最顶尖的 AI 投资机构——科技巨头、顶级 VC、行业权威——已经用真金白银验证了扩散语言模型赛道的价值。

🏆 扩散智能：站在同一赛道，做得更好

扩散智能的 Dream 系列模型与 Inception 的 Mercury 同属扩散语言模型范式
HuggingFace 开源下载 140万+，社区验证全球领先
规划任务性能媲美甚至超越 Inception 最新模型

扩散智能

Team

全球领先的扩散语言模型团队

🎓

学术背景：香港大学 NLP 实验室

CMU 博士 + 前 DeepMind 研究员领衔 · 发表 ICLR、NeurIPS、ACL 等顶会论文数十篇 · 获 ACL 2024 杰出论文奖

👤

孔令鹏 — CEO

谷歌 DeepMind 早期员工及研究科学家，参与构建谷歌句法分析核心框架 DRAGNN · CMU 博士，师从 ACL Fellow Noah A. Smith · 港大计算机系助理教授、博士生导师，HKU NLP 实验室联合主管 · 顶会论文逾 120 篇，谷歌学术引用逾 11,600 次，h-index 56 · ACL 2024 / EACL 2017 杰出论文奖 · Dream 系列模型创始人

👤

张涵 — COO

CMU 自然语言处理博士（Dropout） · 微软研究院 Redmond · AI for Science 创业公司联创

👤

阎开 — CSO

耶鲁大学经济学博士 · 国际顶级对冲基金管理人（管理金额超百亿人民币等值外币） · 负责公司战略与金融行业应用

👤

叶佳成 — 基础模型负责人

港大计算机系博士 · 扩散语言模型领域核心开创者 · Dream 系列模型主要开发者 · 教育部国家奖学金（前 1%）

👤

龚珊三 — 场景适配负责人

港大计算机系博士 · 扩散语言模型领域核心开创者 · Dream 系列模型主要开发者 · ACL 2024 杰出论文奖 · 腾讯犀牛鸟精英计划优秀学生

👤

冯夏冲 — 产品负责人

香港大学博士后研究员 · 哈尔滨工业大学博士 · 黑龙江省人工智能学会优博 · 负责产品落地与应用场景开发

扩散智能

Models

Dream 系列模型矩阵

DreamOn

可变长度生成
突破扩散模型变长限制
全球首创

Dream 7B

基础模型 · 70亿参数
通用语言 / 代码 / 规划
各方面指标首次超越同规模自回归模型

Dream-Coder

代码生成专用
补全 + 函数生成
达到商用水平，可集成 IDE

Dream-VL

视觉语言模型
图像 / 视频理解
多模态对话

Dream-VLA

视觉-语言-动作模型
端到端具身智能规划
仿真及真实环境验证

HuggingFace 下载量超过 140 万次 · 学术界与工业界广泛引用

扩散智能

Model Performance

Dream 7B：全面媲美甚至超越同规模自回归模型

140万+

HuggingFace 累计下载量

7B

参数规模

首次

扩散模型全面超越同规模 AR

📊 通用语言能力

✓ 追平顶尖开源 AR 模型

在通用 Benchmark 上全面覆盖同规模自回归模型，打破扩散模型"能力不足"的固有偏见。

🧩 规划 / Reasoning

✓ 大幅领先同规模 AR

Countdown、数独、国际象棋等规划任务远超同等规模的自回归模型，甚至超越规模大数十倍的模型。

💻 代码生成

✓ 高难度任务实现反超

在 LiveCodeBench 高难度任务上首次超越顶尖开源 AR 模型，并涌现出更符合人类编程逻辑的生成顺序。

扩散智能

Benchmark Results

达到同规模顶尖 AR 模型效果，规划类任务远超同规模 AR

Planning Tasks（Countdown / Sudoku / Trip planning）中，Dream 7B 大幅领先所有同规模及更大规模的 AR 模型

扩散智能

Planning Capability

规划能力：7B 逼近甚至超越 DeepSeek V3（671B）

🔢

Countdown 规划任务 — 7B 追平 / 超越 671B 的 DeepSeek V3

Dream 7B 在 Countdown 规划任务上以极小体量（7B）逼近甚至超越参数量 96 倍的 DeepSeek V3（671B）。这证明了：除了 Scaling，训练方式和架构本身才是能力的根本。

🎯

数独 — 扩散模型全局规划 vs AR 逐步回溯

自回归模型解数独需要消耗大量 token 进行试错回溯——发现矛盾才纠正，效率极低。
Dream 扩散模型从全局同时推理，一次性给出一致的全局解，减少无效推理。

♟️

国际象棋 — 大幅优于 AR 及 AR + Long-CoT

自回归模型（S-A 类）每次只能预测一步，即便加上 Long-CoT 也无法突破局部最优。
Dream 一次预测多 token 的能力使其可以对"未来"进行预判，在国际象棋上大幅优于自回归模型，也超越 AR + Long-CoT（类搜索）的基线。

核心洞察：规划能力不是靠参数堆出来的——是架构决定的

扩散智能

Demo · Planning

Autoregressive vs Diffusion：数独求解直观对比

💡 核心洞察

类似数独这类应用，说明了在需要强规划以及多轮次思考的问题上，扩散语言模型在节约资源以及更强智能上的优势更加明显。

📊 左（AR）vs 右（Diffusion）

AR：token-by-token，需 349 步试错回溯
Diffusion：全局并行去噪，30步完成
步数比：约 11× 效率优势

扩散智能

Planning Data

Countdown & Sudoku：Dream 7B 大幅领先，逼近 DeepSeek V3 671B

左：Countdown（位数越多越难） | 右：4×4 数独填数准确率 — Dream 7B（蓝线）始终领先，高难度下仍优于 DeepSeek V3 671B（灰虚线）

扩散智能

Coding · Performance

代码能力首次反超顶尖开源 AR 模型

💻 代码生成能力

大幅超越此前所有开源扩散模型
整体追平顶尖开源 AR 模型
LiveCodeBench 高难度任务上实现性能反超
HumanEval 82.9 · MBPP 79.6 · EvalPlus 73.1

扩散智能

Coding · Emergent Behavior

涌现出新型编程逻辑：框架先行，细节后填

🧠 全局建模的自然涌现

Dream 在代码生成中自发涌现出非从左往右的生成顺序：先生成整体框架，再填充具体实现——更接近人类工程师的真实编程逻辑。

这是扩散模型"全局建模"能力在编程领域的自然涌现，自回归模型无法复现。

DEMO 1

DEMO 2

扩散智能

Unified Multimodal Diffusion

一个扩散模型，同时理解与生成文本 + 图像

这是一个统一的扩散多模态模型——输入可以是图片或文字，输出同样可以是图片或文字。

图像与文本在同一框架下混合训练，通过 Diffusion 的双向 Attention 进行联合建模，使视觉理解、视觉生成与语言智能能够更自然地融合——从而获得更强的建模能力与更统一的多模态推理过程。

交错的多模态 token、掩码去噪与双向注意力机制，在统一架构中实现：读取图像、理解文本、生成文本、生成图像，甚至可以用图像 token 进行思考推理。

👉 请看示例（单独演示）

扩散智能

Commercialization · Overview

技术优势已吸引多类商业需求，我们最看好具身智能

凭借扩散语言模型的核心优势——速度快（并行生成）、规划能力强（全局视野）、智能上限更高、本地部署模型已发布——以及 Dream 系列模型在 Benchmark 上的突破性表现，在学校期间，已有多类真实商业需求主动找到我们合作。

📱 Generative UI

华为鸿蒙已提出 Generative UI 的商业化合作意向——根据用户意图实时生成操作界面，响应时间 <200ms。

这正是 DLLM 并行生成速度的天然应用场景，AR 模型无法满足实时性要求。

🚗 智能驾驶 · 智能座舱

智能驾驶 · 智能座舱方向的需求旺盛，包括与华为引望、智界、欧卡智舶等的技术合作在学校期间已经开展。

DLLM 大幅降低智驾推理延迟，同时支持规划能力更强的统一 VLA 模型。

🤖 具身智能（最看好）

我们最看好具身智能方向——Dream-VLA 在 Benchmark 上已全面超越所有 AR-based VLA，泛化能力与数据效率更强。

扩散模型双向建模的动作一致性优势，有望开启具身智能的 ChatGPT 时刻。

扩散智能

π0 · Physical Intelligence

π0：Physical Intelligence

🏗️ π0 架构详情

VLM：自回归 PaliGemma（SigLIP + Gemma）
Action：扩散 Flow Matching action expert
结构：AR语言头 + 扩散动作头双头拼接

📅 π0 演进时间线

2024.10

π₀ 发布
PaliGemma + Flow Matching · AR+扩散双头

2025.04

π₀.5
开放世界初步泛化

2025.11

π₀.6
引入强化学习 RL

2026.04

π₀.7
引入世界模型，增强泛化性
⚠ VLM 仍然沿用自回归

π0 架构图 · AR VLM + 扩散 Action Expert 双头结构

π0 vs Dream-VLA：架构对比

π₀ 架构：AR VLM + 扩散 action expert（拼接）
我们：统一扩散 VLM 骨干（dLLM-VLA，原生整合）

① 全局规划能力更强

dLLM 通过 masked diffusion 对整个序列全局建模，天然规避 AR 的 error accumulation，长 horizon 任务规划精度显著提升。

② 规划速度更快 · 实时性更强

扩散解码支持 parallel generation，规划时无需逐 token 串行，更快执行任务。

③ 感知理解能力更强

dLLM 双向注意力使语言与视觉信号充分交互，无单向因果掩码限制，视觉-语言 feature 融合更充分，复杂指令理解与场景感知更鲁棒。

🏢 公司背景

Physical Intelligence（π）
旧金山 · 2023年成立
估值约 $11B
Google / DeepMind / Stanford 背景团队

统一扩散架构

规划 · 速度 · 感知
全面领先

扩散智能

Dream-VLA · Vision-Language-Action

Dream-VLA：扩散模型天然适合具身智能

① 双向建模 · 图文充分交互

双向建模使得图像信息和文本信息可以充分交互，带来基模理解生成能力的整体提升。

② 规划能力迁移 · 动作一致性更强

DLLM 的规划能力可以迁移到多模态模型，生成更优的全局规划，使得动作序列一致性更强。

③ 泛化能力和数据效率更强

数据效率：只使用公开数据进行训练时，Dream-VLA 较其他模型有较大的领先。

泛化能力：现有具身智能模型泛化性不足，基本只能在训练场景做好，新场景或细微变化下表现差。Dream-VLA 在模型架构与数据效率上的优势，使其很有可能在未来带来具身智能的 ChatGPT 时刻。

扩散智能

Dream-VLA · 具身智能商业化

Dream-VLA 商业化（具身智能）：两种合作模式

模式一（服务于现有做具身大脑的公司，扩散智能作为Tier2厂商）· 语言模型替换 / 强化

为所有使用 VLA 的具身模型/整机公司，提供更领先的语言模型（L）替换或强化其现有架构中的 Language 部分。

对象：本身做 VLA 模型开发的 Tier1 厂商
价值：即插即用，快速提升规划深度与动作一致性
商业形式：模型 License / 模型授权

▸ 低替换成本，快速规模化，农村包围城市

模式二（直接服务于终端机器人厂商，扩散智能直接作为具身大脑提供商）· 训练统一扩散模型

与机器人企业与机器人企业深度合作，共同训练统一的扩散 VLA 模型——将对方的私有场景数据与 Dream 基座模型结合，打造专属的高性能垂直模型。同时针对市面上现有的不同机器人硬件，在这些硬件上训练和测试统一扩散模型。

对象：具身机器人企业
价值：双方共同研发统一扩散模型，充分发挥扩散模型优势，完成场景数据的积累；数据积累过程中，扩散智能也会发布能够支持不同类型机器人的下一代大脑
商业形式：联合研发合同 + 通用模型授权/api调用

▸ 让具身机器人公司可以基于统一扩散模型快速实现通用能力

扩散智能

Model Roadmap

模型迭代路线图：30B → 300B → 1T

30B MoE

⏱ 时间线

2026 Q2 — 30B 启动训练
2026 Q4 — 30B 正式发布

💰 训练开销

~500 万美元

30B 规模接近大参数 SOTA 自回归模型，整体能力全面升级，同时推进行业场景模型适配。

300B MoE

⏱ 时间线

2026 Q4 — 300B 启动训练
2027 Q2 — 300B 模型发布

💰 训练开销

~2000 万美元

300B 全面比肩顶级自回归模型，实现扩散语言模型在旗舰规模上的全面超越。

1T+

⏱ 时间线

2027 Q2 — 1T 模型启动训练
2027 Q4 — 1T 模型发布

💰 训练开销

~1 亿美元

1T 规模探索扩散语言模型智能涌现的上限，成为下一代 AI 基础架构的代表性模型。

扩散智能

Roadmap

2026 战略路线图

2026 Q2

完成 2000万美元融资
30B 模型训练启动
7B VLA 找到 3 家头部具身 VLA 合作伙伴，适配语言模型部分
验证具身智能 Tier2 模型厂商模式
▸ 商业意向合同（LOI/MOU）签署

2026 Q3

启动 3000万美元融资
具身模型找到 2 家头部整机厂商
开始联合训练统一 Diffusion VLM 模型
▸ 验证具身智能 Tier1 模型厂商模式

2026 Q4

完成 3000万美元融资
30B 模型正式发布
300B 模型训练启动
发布 Dream-VLA 2.0
▸ 正式商业合同签署 · 首批订单交付
▸ 启动 5000万美元融资

2027 Q1

完成 5000万美元融资
300B 模型持续优化
1T 以上模型训练开始探索
▸ 规模化订单落地

融资节奏

2026 Q2 · 2000万美金
2026 Q3-Q4· 3000万美元
2026 Q4–2027 Q1 · 5000万美元
2027 Q2–Q4 · 1亿美元

团队扩张

2026 Q2–Q3：扩展至 10+ 算法研究员 & 10+ 基础设施工程师
2026 Q4–2027 Q2：扩展至 50 人技术团队

扩散智能

Frontier

更强智能探索：扩散模型的两个独特优势

①

天然适合 AI for AI：优化自回归模型的更优路径

扩散语言模型建模的信息远比自回归模型丰富——自回归只建模"通过前面信息预测后面"，而扩散模型建模的是全局信息：既有从前往后，也有从后往前，整体同时预测。

这意味着扩散模型天然掌握更完整的语言结构，是探索用 AI 优化 AI（AI for AI）路径中更具潜力的基础架构。

②

Latent Thinking：更像人类的思考方式

自回归大模型的思考过程必须把每一个字都显式输出，再以此为基础继续推理——思考即输出，无法跳跃。

扩散模型的生成过程是天然的去噪过程：在推理时存在大量latent 中间状态，这些状态不需要输出最终 token，而是在更内隐、更抽象的层面直接进行思考与推理。

这与人类思维方式更为接近——思考不必逐字说出，推理可以在脑中直接完成。

更强智能 · 更优规划
天花板更高

越来越多的研究证明，扩散语言模型是比自回归更具潜力的基础模型范式——更强智能，更优规划，天花板更高。

我们的长远使命：在模型参数规模追近的同时，各方面指标全面超越自回归模型。

扩散智能

Competition

竞争对手自回归厂商（OpenAI · Google · Antropic · 国内六小龙）

🔵 自回归厂商由于战略惯性与资源约束，短期内不会将大量资源投入另一范式的基础模型研发：

范式级变化带来的先发优势窗口：1.5–2 年

参考：ChatGPT 出现后，谷歌花了 2 年多才做出性能接近的模型。

自回归厂商由于战略惯性与资源约束，短期内不会将大量资源投入另一范式的基础模型研发：

①

扩散模型的预训练与后训练 Infra 需要大量重建，无法复用自回归现有工程积累

②

综合掌握这个范式训练的人才数量全球仍然极少，招募和培养需要时间

③

自回归厂商由于战略惯性与资源约束，短期内不会将大量资源投入另一范式的基础模型研发

🔵 范式级变化带来的先发优势窗口 1.5–2年

范式级变化带来的先发优势窗口：1.5–2 年

参考：ChatGPT 出现后，谷歌花了 2 年多才做出性能接近的模型。

自回归厂商由于战略惯性与资源约束，短期内不会将大量资源投入另一范式的基础模型研发：

①

扩散模型的预训练与后训练 Infra 需要大量重建，无法复用自回归现有工程积累

②

综合掌握这个范式训练的人才数量全球仍然极少，招募和培养需要时间

③

自回归厂商由于战略惯性与资源约束，短期内不会将大量资源投入另一范式的基础模型研发

Appendix

附录

Agent 能力 · 竞争对手 · 补充材料

扩散智能

Autonomous Driving

DLLM 大幅降低智驾延迟，提升实时性与安全性

🧠 VLA 成为智驾主流方向

传统端到端模型因推理能力不足，泛化性能较差——需要记住大量 corner case 才能增强智驾能力，开发成本极高。

而 VLA 模型凭借强大的语言模型推理能力，在复杂场景下具备更强的泛化与规划深度，逐渐成为新一代智驾的主流方案。

🚗 智驾痛点与 DLLM 优势

智驾 ～70% 延迟来自语言 token 推理
引入 DLLM 可大幅降低推理延迟，实时性更好、安全性更高
推理深度更强，规划质量更优
需要同时规划 N 步动作的场景，DLLM 天然适合

NVIDIA Alpamayo — Trajectory Diffusion 架构（取自论文）

扩散智能

Agent · Orchestration

指挥家模型：DLLM 天然适合本地 Orchestration

🎼 什么是 Orchestration？

Orchestration 指挥家模型负责决策分发——判断哪些任务交给云端大模型处理，哪些任务在本地完成。 DLLM 规划能力更强的特点，使其天然适合部署在一体机上承担这一角色。

🔒 敏感数据保护

涉及隐私或敏感数据的任务由本地 DLLM 直接处理，数据不出本地，合规性与安全性大幅提升。

💰 大幅节省 Token 成本

简单任务本地解决，复杂任务才调用云端——减少不必要的 API 调用，显著降低推理成本。

用户请求

🎼 本地 DLLM

Orchestration
规划 · 分发 · 执行简单任务
敏感数据不出本地

复杂任务 ↗

结果 ↙

☁️ 云端大模型

复杂推理
高难度任务
按需调用，省成本

扩散智能

Agent · Parallel Tool Calling

并行工具调用：DLLM 重新定义 Agent 执行速度

⚡ 并行 JSON 工具调用

AR 生成 JSON 是串行的，key-value 必须按顺序逐个生成。 DLLM 可以并行填充 JSON 各字段，对参数多的 tool call 以及需要同时生成多个 tool call 的场景尤其有用。

Demo · dllmtoolcall.html