Candies AI · Deep Learning
万卡 meshMoE 原生扩散/视频碳感知调度
Candies DL
万卡训练 · MoE · 扩散与世界模型 · 科学仿真
Candies DL 提供拓扑感知 placement、MoE 算子与绿色调度,在万亿 MoE、视频基础模型与 PINN 气候仿真上实现行业最高 MFU;与 LLM 研发平台互联,共享 Checkpoint 与实验中枢。

核心指标
0
GPU 规模
0
MFU
0
故障恢复
0LLM+DL
代码仓
Training
万卡训练网格
调度、网络、存储与能效同一控制平面,与 LLM 实验中枢共享 Checkpoint 与模型注册表。

Candies Training Mesh 以拓扑感知 placement 编排万卡作业:张量、流水线、数据与专家并行四维组合自动搜索,NCCL/RDMA 参数按集群指纹调优。节点失效时专家与数据分片 90s 内重映射,故障自愈率 99.7%;碳强度 gCO₂/kWh 摘要 42,可再生电力走廊优先调度。
并行策略自动搜索
按模型规模与通信拓扑推荐 TP/PP/DP/EP 组合,扩展效率@8k GPU 摘要 92%。MoE 负载差 1.08,通信占比压至 18%;万亿 MoE 日处理 Tokens 公开案例 4T。
分层异步 Checkpoint
CKPT 开销约 3%,恢复 <90s(较 Megatron 12 min 级显著缩短)。分层存储对接对象存储与并行文件系统,训练中断可回滚至最近一致步,实验元数据写入 LLM 研发控制台。
绿色调度与 SLA
作业绑定可再生电力走廊与功耗封顶策略,碳报表纳入企业 ESG 仪表盘。集群 SLA 含 MFU、恢复时间与通信占比门禁,未达标构建阻断晋升至 LLM 对齐阶段。
Capabilities
核心能力矩阵
万卡训练网格
拓扑感知 placement,TP/PP/DP/EP 自动搜索,扩展效率@8k 92%。NCCL/RDMA 指纹调优,10k+ GPU 统一调度与 SLA 门禁。
扩散与视频
DiT + 时空 VAE,训练吞吐 2.4×,FVD 210。四阶段去噪世界模型,对接 CV 生成与影视 previz 产线。
MoE 路由
负载差 1.08,专家热迁移与通信重叠。万亿 MoE 与 LLM 路由、推理编译同源,避免重复训练骨干。
检查点
异步分层 CKPT 开销约 3%,恢复 <90s。分层存储对接对象存储,实验元数据与 LLM 中枢同步。
混合精度
FP8/FP16 自动选择与 loss scaling,MFU 58%。按作业模板绑定精度策略,未过数值稳定性回归禁止晋升。
与 LLM 协同
预训练权重一键晋升 LLM SFT/RLHF;共享代码仓与注册表。DL 实验—对齐—推理指标同屏,缩短 flagship 交付周期。
Architecture
万卡分布式拓扑

张量、流水线、数据与专家并行在统一光路拓扑上同构交付:MoE 门控融合通信算子 MFU 58%+,视频时空立方嵌入支撑基础模型,绿色调度将作业导向低碳机架。预训练产出经同一注册表晋升至 /ai/llm 对齐与推理,避免 DL—LLM 权重割裂。
专家并行与 MoE
万亿专家门控、负载均衡与热迁移;通信与计算重叠降低气泡。开源旗舰训练案例 MFU 从 38% 提升至 57%,64 专家配置与 LLM 路由无缝对接。
视频与扩散时空栈
帧立方展开为统一时空嵌入,DiT 四阶段去噪训练吞吐较基线 2.4×。Candy-DiT-XL 与 Candy-Vid-L 共享 VAE 表征,长视频 FVD 摘要 210。
绿色与量子混合
碳感知调度优先可再生机架;可选量子环加速经典优化器(试点)。PINN 气候胞格与托卡马克控制等科学负载共用网格调度器。
预训练权重与推理栈见 Candies 大模型(LLM)。
Roadmap
技术路线图
Candies DL 公开路线图:训练平台 GA、MoE-1T 预训练、视频基础模型 Beta、绿色电力走廊与 DL→LLM 权重晋升流水线。
- 产品化进行中2026-Q2
Candies DL 训练平台 GA
Training Mesh 控制台、万卡作业模板与异步 CKPT GA;与 LLM 实验中枢、模型注册表和 /gpu 算力套餐统一租户视图。MFU、恢复时间与碳强度纳入发布列车门禁。

- 模型已完成2026-Q1
Candy-MoE-1T 预训练完成
万亿激活 MoE 完成 4T Tokens/日 稳定训练,64 专家、负载差 1.08。权重晋升 LLM 对齐流水线,开源社区可下载分级检查点与模型卡(伦理披露含算力碳足迹)。

- 研究进行中2026-Q3
视频基础模型 Beta
Candy-Vid-L 时空 VAE + DiT 联合训练 Beta 开放合作;长时序一致性损失与 2.4× 吞吐优化进入影子评测。影视 previz 与生成式视觉客户可申请早期 API。

- 可持续进行中2025-Q4
北欧绿色电力走廊扩容
新增 2k 可再生机架接入碳感知调度,集群平均 gCO₂/kWh 降至 42。企业客户可在作业提交时绑定 ESG 报表模板,满足 Scope 2 披露抽样。

- 生态规划中2026-Q4
DL→LLM 权重晋升流水线
预训练 Checkpoint 自动触发 LLM 对齐门禁(安全、评测、碳标签);一键 fork 至 SFT/RLHF 配方。与 /ai/llm 文档和 SDK 版本号锁定,缩短从实验到企业 API 的路径。

Comparison
行业对照
| 指标 | Candies | Megatron | DeepSpeed |
|---|---|---|---|
| MFU | 58%领先 | 41% | 44% |
| 扩展效率@8k | 92%领先 | 71% | 74% |
| CKPT 开销 | 3%领先 | 12% | 10% |
| MoE 负载差 | 1.08领先 | 1.42 | 1.35 |
| 视频 FVD | 210领先 | 280 | 265 |
| 恢复时间 | 90s领先 | 600s | 480s |
| 通信占比 | 18% | 32% | 28% |
| 与 LLM 共用 | 是 | 否 | 否 |
Use cases
应用场景
超大规模训练

MoE 训练
万亿专家门控、负载均衡 1.08 与通信重叠;日 4T Tokens 稳定吞吐。权重与 Candies LLM 路由同源,开源旗舰 MFU 57% 案例可复现。

扩散世界模型
四阶段 DiT 去噪至逼真场景,支撑生成式视觉与 previz。Candy-DiT-XL 图像/视频联合训练,与 CV 生成栈共享调度器降低重复建设。

视频基础模型
时空立方嵌入统一表征,长视频一致性 VAE;训练吞吐 2.4× 基线。面向影视、安防长视频与自动驾驶时空预训练。
科学与可持续

科学仿真 PINN
气候胞格、湍流与蛋白势能面神经网络求解;国家气候中心案例 RMSE -41%,区域分辨率 1km。医药靶点导航 4 周 vs 湿实验 6 月。

量子混合
量子环加速经典优化器试点,面向组合优化与部分梯度子问题。与万卡网格作业编排共存,结果写入同一实验追踪元数据。

绿色训练
碳感知调度点亮可再生机架,gCO₂/kWh 摘要 42。作业级 ESG 报表导出,未选绿色走廊的构建可触发合规提醒(企业策略可配置)。
Case studies
产业案例

医药
蛋白折叠深势导航
创新药企用 PINN 势能面在 12k GPU·周 预算内筛选候选分子:深势谷道实时导航将湿实验周期从 6 月/靶点压缩至 4 周,命中提升 3.2×。
- 之前
- 湿实验筛选约 6 月/靶点,算力分散
- 之后
- 4 周/靶点,统一 Training Mesh 调度
- 3.2× 命中提升
- 12k GPU·周 算力

能源
托卡马克等离子体控制
国家实验室托卡马克接入毫秒级 RL+PINN 混合策略:等离子体形状控制稳定窗从 PID 不稳定提升至连续 120s+,破裂率下降 76%。
- 之前
- PID 控制不稳定窗,破裂频繁
- 之后
- 稳定 120s+,控制延迟 0.8 ms
- -76% 破裂率
- 0.8 ms 控制延迟

科研
开源 MoE 旗舰联合训练
联合实验室在 Candies 网格上训练 64 专家 Candy-MoE-1T:MFU 从 38% 提升至 57%,日 4T Tokens;Checkpoint 与 LLM 平台实验中枢共享,对齐阶段零拷贝晋升。
- 之前
- MFU 38%,CKPT 恢复分钟级
- 之后
- MFU 57%,恢复 <90s
- 4T Tokens/日
- 64 专家数

科研
国家气候中心区域 PINN
区域预报胞格从 25km 细化至 1km:PINN 同化卫星与站点数据,RMSE -41%,推理分钟级出图。绿色调度优先北欧可再生机架,碳报表纳入运维季报。
- 之前
- 传统数值 25km,算力 8h/时效
- 之后
- 1km PINN,分钟级推理
- -41% RMSE
- 分钟级 推理时效
R&D pillars
研发优势

Candies Mesh · 万卡训练网格
拓扑感知 · 90s 恢复 · 58% MFU
自研 placement 与 NCCL 指纹调优贯通 10k+ GPU;张量/流水线/数据/专家并行自动搜索。异步分层 CKPT 开销约 3%,故障自愈 99.7%,为企业与科研提供可预期 SLA。
58%
MFU (MoE 1T)
< 90s
恢复时间
92%
扩展效率@8k
18%
通信占比
- MoE 负载差 1.08,专家热迁移与通信重叠降低气泡
- 集群指纹自动调优 RDMA/NCCL,人工调参周期从周级降至小时级
- 与 LLM 实验中枢共享元数据,预训练—对齐指标同屏对比

Candies Generative · 扩散与视频
DiT · 时空 VAE · 世界模型
Candy-DiT-XL 与 Candy-Vid-L 统一时空表征,视频训练吞吐 2.4×,FVD 210。扩散世界模型四阶段去噪服务影视 previz 与生成式视觉产线,权重可对接 CV 生成栈。
2.4×
视频吞吐
210
FVD
2.4B
DiT 参数量
800M
VAE
- 帧立方时空嵌入,长视频一致性损失减少闪烁与主体漂移
- 图像/视频联合训练共享调度器,避免重复占用万卡窗口
- 生成 Checkpoint 带内容安全与版权策略版本号

Candies Science · 仿真与绿色算力
PINN · 量子混合 · 碳感知
PINN 支撑气候 1km 胞格与托卡马克毫秒控制;蛋白折叠导航缩短药企发现周期。绿色调度 gCO₂/kWh 42,量子混合优化器试点接入同一作业编排器。
42 g/kWh
碳强度
-41%
气候 RMSE
120s+
托卡马克稳定
4 周
药企周期
- 科学负载与 LLM/MoE 作业统一排队,提升集群利用率
- ESG 报表模板对接企业可持续披露框架
- 量子环试点结果写入实验追踪,便于复现与审计
Model zoo
深度学习模型族谱
Candies DL 预训练族谱覆盖万亿 MoE、扩散—视频联合与世界模型分支:Checkpoint 带模型卡、碳足迹与安全披露,经注册表晋升至 LLM 对齐与 CV 生成下游。选型需结合算力窗口、MFU 门禁与下游任务(对话、生成、科学仿真)。
Candy-MoE-1T
MoE
1T active
64 专家、负载差 1.08,日 4T Tokens 稳定训练。稀疏激活对接 Candies LLM 路由与推理编译;开源分级权重 + 模型卡,含算力碳强度标签。
Candy-DiT-XL
扩散
2.4B
四阶段 DiT 去噪,图像/视频联合生成;与 Candy-Vid-L 共享时空 VAE。训练吞吐 2.4× 基线,服务 previz、营销素材与生成式视觉产线。
Candy-Vid-L
视频
800M
长时序一致性 VAE + 时空立方嵌入,FVD 210。面向长视频预训练、影视 previz 与安防事件摘要;Beta 合作通道 2026-Q3 开放。
FAQ