Candies AI · Deep Learning

万卡 meshMoE 原生扩散/视频碳感知调度更新于 2026-05-21

Candies DL

万卡训练 · MoE · 扩散与世界模型 · 科学仿真

Candies DL 提供拓扑感知 placement、MoE 算子与绿色调度，在万亿 MoE、视频基础模型与 PINN 气候仿真上实现行业最高 MFU；与 LLM 研发平台互联，共享 Checkpoint 与实验中枢。

10k+
GPU 规模
58%
MFU
2min
故障恢复
1
LLM+DL
代码仓

Training

万卡训练网格

调度、网络、存储与能效同一控制平面，与 LLM 实验中枢共享 Checkpoint 与模型注册表。

Candies Training Mesh 以拓扑感知 placement 编排万卡作业：张量、流水线、数据与专家并行四维组合自动搜索，NCCL/RDMA 参数按集群指纹调优。节点失效时专家与数据分片 90s 内重映射，故障自愈率 99.7%；碳强度 gCO₂/kWh 摘要 42，可再生电力走廊优先调度。

并行策略自动搜索
按模型规模与通信拓扑推荐 TP/PP/DP/EP 组合，扩展效率@8k GPU 摘要 92%。MoE 负载差 1.08，通信占比压至 18%；万亿 MoE 日处理 Tokens 公开案例 4T。
分层异步 Checkpoint
CKPT 开销约 3%，恢复 <90s（较 Megatron 12 min 级显著缩短）。分层存储对接对象存储与并行文件系统，训练中断可回滚至最近一致步，实验元数据写入 LLM 研发控制台。
绿色调度与 SLA
作业绑定可再生电力走廊与功耗封顶策略，碳报表纳入企业 ESG 仪表盘。集群 SLA 含 MFU、恢复时间与通信占比门禁，未达标构建阻断晋升至 LLM 对齐阶段。

Capabilities

核心能力矩阵

万卡训练网格
拓扑感知 placement，TP/PP/DP/EP 自动搜索，扩展效率@8k 92%。NCCL/RDMA 指纹调优，10k+ GPU 统一调度与 SLA 门禁。
扩散与视频
DiT + 时空 VAE，训练吞吐 2.4×，FVD 210。四阶段去噪世界模型，对接 CV 生成与影视 previz 产线。
MoE 路由
负载差 1.08，专家热迁移与通信重叠。万亿 MoE 与 LLM 路由、推理编译同源，避免重复训练骨干。
检查点
异步分层 CKPT 开销约 3%，恢复 <90s。分层存储对接对象存储，实验元数据与 LLM 中枢同步。
混合精度
FP8/FP16 自动选择与 loss scaling，MFU 58%。按作业模板绑定精度策略，未过数值稳定性回归禁止晋升。
与 LLM 协同
预训练权重一键晋升 LLM SFT/RLHF；共享代码仓与注册表。DL 实验—对齐—推理指标同屏，缩短 flagship 交付周期。

Architecture

万卡分布式拓扑

张量、流水线、数据与专家并行在统一光路拓扑上同构交付：MoE 门控融合通信算子 MFU 58%+，视频时空立方嵌入支撑基础模型，绿色调度将作业导向低碳机架。预训练产出经同一注册表晋升至 /ai/llm 对齐与推理，避免 DL—LLM 权重割裂。

专家并行与 MoE
万亿专家门控、负载均衡与热迁移；通信与计算重叠降低气泡。开源旗舰训练案例 MFU 从 38% 提升至 57%，64 专家配置与 LLM 路由无缝对接。
视频与扩散时空栈
帧立方展开为统一时空嵌入，DiT 四阶段去噪训练吞吐较基线 2.4×。Candy-DiT-XL 与 Candy-Vid-L 共享 VAE 表征，长视频 FVD 摘要 210。
绿色与量子混合
碳感知调度优先可再生机架；可选量子环加速经典优化器（试点）。PINN 气候胞格与托卡马克控制等科学负载共用网格调度器。

预训练权重与推理栈见 Candies 大模型（LLM）。

Roadmap

技术路线图

Candies DL 公开路线图：训练平台 GA、MoE-1T 预训练、视频基础模型 Beta、绿色电力走廊与 DL→LLM 权重晋升流水线。

产品化进行中2026-Q2
Candies DL 训练平台 GA
Training Mesh 控制台、万卡作业模板与异步 CKPT GA；与 LLM 实验中枢、模型注册表和 /gpu 算力套餐统一租户视图。MFU、恢复时间与碳强度纳入发布列车门禁。
模型已完成2026-Q1
Candy-MoE-1T 预训练完成
万亿激活 MoE 完成 4T Tokens/日稳定训练，64 专家、负载差 1.08。权重晋升 LLM 对齐流水线，开源社区可下载分级检查点与模型卡（伦理披露含算力碳足迹）。
研究进行中2026-Q3
视频基础模型 Beta
Candy-Vid-L 时空 VAE + DiT 联合训练 Beta 开放合作；长时序一致性损失与 2.4× 吞吐优化进入影子评测。影视 previz 与生成式视觉客户可申请早期 API。
可持续进行中2025-Q4
北欧绿色电力走廊扩容
新增 2k 可再生机架接入碳感知调度，集群平均 gCO₂/kWh 降至 42。企业客户可在作业提交时绑定 ESG 报表模板，满足 Scope 2 披露抽样。
生态规划中2026-Q4
DL→LLM 权重晋升流水线
预训练 Checkpoint 自动触发 LLM 对齐门禁（安全、评测、碳标签）；一键 fork 至 SFT/RLHF 配方。与 /ai/llm 文档和 SDK 版本号锁定，缩短从实验到企业 API 的路径。

Comparison

行业对照

Candies DL 行业指标对照
指标	Candies	Megatron	DeepSpeed
MFU	58%领先	41%	44%
扩展效率@8k	92%领先	71%	74%
CKPT 开销	3%领先	12%	10%
MoE 负载差	1.08领先	1.42	1.35
视频 FVD	210领先	280	265
恢复时间	90s领先	600s	480s
通信占比	18%	32%	28%
与 LLM 共用	是	否	否

Use cases

应用场景

超大规模训练

MoE 训练
万亿专家门控、负载均衡 1.08 与通信重叠；日 4T Tokens 稳定吞吐。权重与 Candies LLM 路由同源，开源旗舰 MFU 57% 案例可复现。
扩散世界模型
四阶段 DiT 去噪至逼真场景，支撑生成式视觉与 previz。Candy-DiT-XL 图像/视频联合训练，与 CV 生成栈共享调度器降低重复建设。
视频基础模型
时空立方嵌入统一表征，长视频一致性 VAE；训练吞吐 2.4× 基线。面向影视、安防长视频与自动驾驶时空预训练。

科学与可持续

科学仿真 PINN
气候胞格、湍流与蛋白势能面神经网络求解；国家气候中心案例 RMSE -41%，区域分辨率 1km。医药靶点导航 4 周 vs 湿实验 6 月。
量子混合
量子环加速经典优化器试点，面向组合优化与部分梯度子问题。与万卡网格作业编排共存，结果写入同一实验追踪元数据。
绿色训练
碳感知调度点亮可再生机架，gCO₂/kWh 摘要 42。作业级 ESG 报表导出，未选绿色走廊的构建可触发合规提醒（企业策略可配置）。

Case studies

产业案例

医药
蛋白折叠深势导航
创新药企用 PINN 势能面在 12k GPU·周预算内筛选候选分子：深势谷道实时导航将湿实验周期从 6 月/靶点压缩至 4 周，命中提升 3.2×。
之前
湿实验筛选约 6 月/靶点，算力分散
之后
4 周/靶点，统一 Training Mesh 调度
- 3.2× 命中提升
- 12k GPU·周算力
能源
托卡马克等离子体控制
国家实验室托卡马克接入毫秒级 RL+PINN 混合策略：等离子体形状控制稳定窗从 PID 不稳定提升至连续 120s+，破裂率下降 76%。
之前
PID 控制不稳定窗，破裂频繁
之后
稳定 120s+，控制延迟 0.8 ms
- -76% 破裂率
- 0.8 ms 控制延迟
科研
开源 MoE 旗舰联合训练
联合实验室在 Candies 网格上训练 64 专家 Candy-MoE-1T：MFU 从 38% 提升至 57%，日 4T Tokens；Checkpoint 与 LLM 平台实验中枢共享，对齐阶段零拷贝晋升。
之前
MFU 38%，CKPT 恢复分钟级
之后
MFU 57%，恢复 <90s
- 4T Tokens/日
- 64 专家数
科研
国家气候中心区域 PINN
区域预报胞格从 25km 细化至 1km：PINN 同化卫星与站点数据，RMSE -41%，推理分钟级出图。绿色调度优先北欧可再生机架，碳报表纳入运维季报。
之前
传统数值 25km，算力 8h/时效
之后
1km PINN，分钟级推理
- -41% RMSE
- 分钟级推理时效

R&D pillars

研发优势

Candies Mesh · 万卡训练网格
拓扑感知 · 90s 恢复 · 58% MFU
自研 placement 与 NCCL 指纹调优贯通 10k+ GPU；张量/流水线/数据/专家并行自动搜索。异步分层 CKPT 开销约 3%，故障自愈 99.7%，为企业与科研提供可预期 SLA。
- 58%
  MFU (MoE 1T)
- < 90s
  恢复时间
- 92%
  扩展效率@8k
- 18%
  通信占比
- MoE 负载差 1.08，专家热迁移与通信重叠降低气泡
- 集群指纹自动调优 RDMA/NCCL，人工调参周期从周级降至小时级
- 与 LLM 实验中枢共享元数据，预训练—对齐指标同屏对比
Candies Generative · 扩散与视频
DiT · 时空 VAE · 世界模型
Candy-DiT-XL 与 Candy-Vid-L 统一时空表征，视频训练吞吐 2.4×，FVD 210。扩散世界模型四阶段去噪服务影视 previz 与生成式视觉产线，权重可对接 CV 生成栈。
- 2.4×
  视频吞吐
- 210
  FVD
- 2.4B
  DiT 参数量
- 800M
  VAE
- 帧立方时空嵌入，长视频一致性损失减少闪烁与主体漂移
- 图像/视频联合训练共享调度器，避免重复占用万卡窗口
- 生成 Checkpoint 带内容安全与版权策略版本号
Candies Science · 仿真与绿色算力
PINN · 量子混合 · 碳感知
PINN 支撑气候 1km 胞格与托卡马克毫秒控制；蛋白折叠导航缩短药企发现周期。绿色调度 gCO₂/kWh 42，量子混合优化器试点接入同一作业编排器。
- 42 g/kWh
  碳强度
- -41%
  气候 RMSE
- 120s+
  托卡马克稳定
- 4 周
  药企周期
- 科学负载与 LLM/MoE 作业统一排队，提升集群利用率
- ESG 报表模板对接企业可持续披露框架
- 量子环试点结果写入实验追踪，便于复现与审计

Model zoo

深度学习模型族谱

Candies DL 预训练族谱覆盖万亿 MoE、扩散—视频联合与世界模型分支：Checkpoint 带模型卡、碳足迹与安全披露，经注册表晋升至 LLM 对齐与 CV 生成下游。选型需结合算力窗口、MFU 门禁与下游任务（对话、生成、科学仿真）。

Candy-MoE-1T
MoE
1T active
64 专家、负载差 1.08，日 4T Tokens 稳定训练。稀疏激活对接 Candies LLM 路由与推理编译；开源分级权重 + 模型卡，含算力碳强度标签。
Candy-DiT-XL
扩散
2.4B
四阶段 DiT 去噪，图像/视频联合生成；与 Candy-Vid-L 共享时空 VAE。训练吞吐 2.4× 基线，服务 previz、营销素材与生成式视觉产线。
Candy-Vid-L
视频
800M
长时序一致性 VAE + 时空立方嵌入，FVD 210。面向长视频预训练、影视 previz 与安防事件摘要；Beta 合作通道 2026-Q3 开放。

FAQ

常见问题

产品

技术

部署

Next steps

扩展深度学习算力边界

万卡集群评估与 LLM 联合路线图。

DL 集群咨询
含绿色电力调度
了解更多
Candies LLM 研发
基础模型全链路
了解更多

本网站内容均为杜撰，如有雷同，不甚荣幸。

社区指南行为规范

本中文文档采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。

Candies DLDL

核心指标

万卡训练网格

并行策略自动搜索

分层异步 Checkpoint

绿色调度与 SLA

核心能力矩阵

万卡训练网格

扩散与视频

MoE 路由

检查点

混合精度

与 LLM 协同

万卡分布式拓扑

专家并行与 MoE

视频与扩散时空栈

绿色与量子混合

技术路线图

Candies DL 训练平台 GA

Candy-MoE-1T 预训练完成

视频基础模型 Beta

北欧绿色电力走廊扩容

DL→LLM 权重晋升流水线

行业对照

应用场景

超大规模训练

MoE 训练

扩散世界模型

视频基础模型

科学与可持续

科学仿真 PINN

量子混合

绿色训练

产业案例

蛋白折叠深势导航

托卡马克等离子体控制

开源 MoE 旗舰联合训练

国家气候中心区域 PINN

研发优势

Candies Mesh · 万卡训练网格

Candies Generative · 扩散与视频

Candies Science · 仿真与绿色算力

深度学习模型族谱

Candy-MoE-1T

Candy-DiT-XL

Candy-Vid-L

常见问题

产品

技术

部署

扩展深度学习算力边界

DL 集群咨询

Candies LLM 研发

Candies DL