跳到主要内容
Candies
跳到主要内容

Candies AI · Deep Learning

万卡 meshMoE 原生扩散/视频碳感知调度

Candies DL

万卡训练 · MoE · 扩散与世界模型 · 科学仿真

Candies DL 提供拓扑感知 placement、MoE 算子与绿色调度,在万亿 MoE、视频基础模型与 PINN 气候仿真上实现行业最高 MFU;与 LLM 研发平台互联,共享 Checkpoint 与实验中枢。

Candies DL 主视觉

核心指标

  • 0

    GPU 规模

  • 0

    MFU

  • 0

    故障恢复

  • 0LLM+DL

    代码仓

Training

万卡训练网格

调度、网络、存储与能效同一控制平面,与 LLM 实验中枢共享 Checkpoint 与模型注册表。

Candies 万卡训练网格分布式拓扑

Candies Training Mesh 以拓扑感知 placement 编排万卡作业:张量、流水线、数据与专家并行四维组合自动搜索,NCCL/RDMA 参数按集群指纹调优。节点失效时专家与数据分片 90s 内重映射,故障自愈率 99.7%;碳强度 gCO₂/kWh 摘要 42,可再生电力走廊优先调度。

  • 并行策略自动搜索

    按模型规模与通信拓扑推荐 TP/PP/DP/EP 组合,扩展效率@8k GPU 摘要 92%。MoE 负载差 1.08,通信占比压至 18%;万亿 MoE 日处理 Tokens 公开案例 4T。

  • 分层异步 Checkpoint

    CKPT 开销约 3%,恢复 <90s(较 Megatron 12 min 级显著缩短)。分层存储对接对象存储与并行文件系统,训练中断可回滚至最近一致步,实验元数据写入 LLM 研发控制台。

  • 绿色调度与 SLA

    作业绑定可再生电力走廊与功耗封顶策略,碳报表纳入企业 ESG 仪表盘。集群 SLA 含 MFU、恢复时间与通信占比门禁,未达标构建阻断晋升至 LLM 对齐阶段。

Capabilities

核心能力矩阵

  • 万卡训练网格

    拓扑感知 placement,TP/PP/DP/EP 自动搜索,扩展效率@8k 92%。NCCL/RDMA 指纹调优,10k+ GPU 统一调度与 SLA 门禁。

  • 扩散与视频

    DiT + 时空 VAE,训练吞吐 2.4×,FVD 210。四阶段去噪世界模型,对接 CV 生成与影视 previz 产线。

  • MoE 路由

    负载差 1.08,专家热迁移与通信重叠。万亿 MoE 与 LLM 路由、推理编译同源,避免重复训练骨干。

  • 检查点

    异步分层 CKPT 开销约 3%,恢复 <90s。分层存储对接对象存储,实验元数据与 LLM 中枢同步。

  • 混合精度

    FP8/FP16 自动选择与 loss scaling,MFU 58%。按作业模板绑定精度策略,未过数值稳定性回归禁止晋升。

  • 与 LLM 协同

    预训练权重一键晋升 LLM SFT/RLHF;共享代码仓与注册表。DL 实验—对齐—推理指标同屏,缩短 flagship 交付周期。

Architecture

万卡分布式拓扑

Candies 万卡分布式训练拓扑

张量、流水线、数据与专家并行在统一光路拓扑上同构交付:MoE 门控融合通信算子 MFU 58%+,视频时空立方嵌入支撑基础模型,绿色调度将作业导向低碳机架。预训练产出经同一注册表晋升至 /ai/llm 对齐与推理,避免 DL—LLM 权重割裂。

  • 专家并行与 MoE

    万亿专家门控、负载均衡与热迁移;通信与计算重叠降低气泡。开源旗舰训练案例 MFU 从 38% 提升至 57%,64 专家配置与 LLM 路由无缝对接。

  • 视频与扩散时空栈

    帧立方展开为统一时空嵌入,DiT 四阶段去噪训练吞吐较基线 2.4×。Candy-DiT-XL 与 Candy-Vid-L 共享 VAE 表征,长视频 FVD 摘要 210。

  • 绿色与量子混合

    碳感知调度优先可再生机架;可选量子环加速经典优化器(试点)。PINN 气候胞格与托卡马克控制等科学负载共用网格调度器。

预训练权重与推理栈见 Candies 大模型(LLM)

Roadmap

技术路线图

Candies DL 公开路线图:训练平台 GA、MoE-1T 预训练、视频基础模型 Beta、绿色电力走廊与 DL→LLM 权重晋升流水线。

  1. 产品化进行中2026-Q2

    Candies DL 训练平台 GA

    Training Mesh 控制台、万卡作业模板与异步 CKPT GA;与 LLM 实验中枢、模型注册表和 /gpu 算力套餐统一租户视图。MFU、恢复时间与碳强度纳入发布列车门禁。

    DL 万卡训练平台 GA
  2. 模型已完成2026-Q1

    Candy-MoE-1T 预训练完成

    万亿激活 MoE 完成 4T Tokens/日 稳定训练,64 专家、负载差 1.08。权重晋升 LLM 对齐流水线,开源社区可下载分级检查点与模型卡(伦理披露含算力碳足迹)。

    Candy-MoE-1T 万亿专家训练
  3. 研究进行中2026-Q3

    视频基础模型 Beta

    Candy-Vid-L 时空 VAE + DiT 联合训练 Beta 开放合作;长时序一致性损失与 2.4× 吞吐优化进入影子评测。影视 previz 与生成式视觉客户可申请早期 API。

    视频基础模型时空立方训练
  4. 可持续进行中2025-Q4

    北欧绿色电力走廊扩容

    新增 2k 可再生机架接入碳感知调度,集群平均 gCO₂/kWh 降至 42。企业客户可在作业提交时绑定 ESG 报表模板,满足 Scope 2 披露抽样。

    绿色训练可再生机架调度
  5. 生态规划中2026-Q4

    DL→LLM 权重晋升流水线

    预训练 Checkpoint 自动触发 LLM 对齐门禁(安全、评测、碳标签);一键 fork 至 SFT/RLHF 配方。与 /ai/llm 文档和 SDK 版本号锁定,缩短从实验到企业 API 的路径。

    DL 权重晋升 LLM 全栈

Comparison

行业对照

Candies DL 行业指标对照
指标CandiesMegatronDeepSpeed
MFU58%领先41%44%
扩展效率@8k92%领先71%74%
CKPT 开销3%领先12%10%
MoE 负载差1.08领先1.421.35
视频 FVD210领先280265
恢复时间90s领先600s480s
通信占比18%32%28%
与 LLM 共用

Use cases

应用场景

超大规模训练

  • MoE 万亿专家训练门控

    MoE 训练

    万亿专家门控、负载均衡 1.08 与通信重叠;日 4T Tokens 稳定吞吐。权重与 Candies LLM 路由同源,开源旗舰 MFU 57% 案例可复现。

  • 扩散世界模型去噪训练

    扩散世界模型

    四阶段 DiT 去噪至逼真场景,支撑生成式视觉与 previz。Candy-DiT-XL 图像/视频联合训练,与 CV 生成栈共享调度器降低重复建设。

  • 视频基础模型时空立方

    视频基础模型

    时空立方嵌入统一表征,长视频一致性 VAE;训练吞吐 2.4× 基线。面向影视、安防长视频与自动驾驶时空预训练。

科学与可持续

  • PINN 科学仿真胞格

    科学仿真 PINN

    气候胞格、湍流与蛋白势能面神经网络求解;国家气候中心案例 RMSE -41%,区域分辨率 1km。医药靶点导航 4 周 vs 湿实验 6 月。

  • 量子—经典混合训练

    量子混合

    量子环加速经典优化器试点,面向组合优化与部分梯度子问题。与万卡网格作业编排共存,结果写入同一实验追踪元数据。

  • 绿色训练碳感知调度

    绿色训练

    碳感知调度点亮可再生机架,gCO₂/kWh 摘要 42。作业级 ESG 报表导出,未选绿色走廊的构建可触发合规提醒(企业策略可配置)。

Case studies

产业案例

  • 蛋白折叠深势谷道导航

    医药

    蛋白折叠深势导航

    创新药企用 PINN 势能面在 12k GPU·周 预算内筛选候选分子:深势谷道实时导航将湿实验周期从 6 月/靶点压缩至 4 周,命中提升 3.2×。

    之前
    湿实验筛选约 6 月/靶点,算力分散
    之后
    4 周/靶点,统一 Training Mesh 调度
    • 3.2× 命中提升
    • 12k GPU·周 算力
  • 托卡马克等离子体毫秒控制

    能源

    托卡马克等离子体控制

    国家实验室托卡马克接入毫秒级 RL+PINN 混合策略:等离子体形状控制稳定窗从 PID 不稳定提升至连续 120s+,破裂率下降 76%。

    之前
    PID 控制不稳定窗,破裂频繁
    之后
    稳定 120s+,控制延迟 0.8 ms
    • -76% 破裂率
    • 0.8 ms 控制延迟
  • 开源 MoE 旗舰万卡训练

    科研

    开源 MoE 旗舰联合训练

    联合实验室在 Candies 网格上训练 64 专家 Candy-MoE-1T:MFU 从 38% 提升至 57%,日 4T Tokens;Checkpoint 与 LLM 平台实验中枢共享,对齐阶段零拷贝晋升。

    之前
    MFU 38%,CKPT 恢复分钟级
    之后
    MFU 57%,恢复 <90s
    • 4T Tokens/日
    • 64 专家数
  • 气候 PINN 1km 胞格预报

    科研

    国家气候中心区域 PINN

    区域预报胞格从 25km 细化至 1km:PINN 同化卫星与站点数据,RMSE -41%,推理分钟级出图。绿色调度优先北欧可再生机架,碳报表纳入运维季报。

    之前
    传统数值 25km,算力 8h/时效
    之后
    1km PINN,分钟级推理
    • -41% RMSE
    • 分钟级 推理时效

R&D pillars

研发优势

  • 万卡训练网格拓扑

    Candies Mesh · 万卡训练网格

    拓扑感知 · 90s 恢复 · 58% MFU

    自研 placement 与 NCCL 指纹调优贯通 10k+ GPU;张量/流水线/数据/专家并行自动搜索。异步分层 CKPT 开销约 3%,故障自愈 99.7%,为企业与科研提供可预期 SLA。

    • 58%

      MFU (MoE 1T)

    • < 90s

      恢复时间

    • 92%

      扩展效率@8k

    • 18%

      通信占比

    • MoE 负载差 1.08,专家热迁移与通信重叠降低气泡
    • 集群指纹自动调优 RDMA/NCCL,人工调参周期从周级降至小时级
    • 与 LLM 实验中枢共享元数据,预训练—对齐指标同屏对比
  • 扩散与视频基础模型研发

    Candies Generative · 扩散与视频

    DiT · 时空 VAE · 世界模型

    Candy-DiT-XL 与 Candy-Vid-L 统一时空表征,视频训练吞吐 2.4×,FVD 210。扩散世界模型四阶段去噪服务影视 previz 与生成式视觉产线,权重可对接 CV 生成栈。

    • 2.4×

      视频吞吐

    • 210

      FVD

    • 2.4B

      DiT 参数量

    • 800M

      VAE

    • 帧立方时空嵌入,长视频一致性损失减少闪烁与主体漂移
    • 图像/视频联合训练共享调度器,避免重复占用万卡窗口
    • 生成 Checkpoint 带内容安全与版权策略版本号
  • 科学仿真与绿色训练调度

    Candies Science · 仿真与绿色算力

    PINN · 量子混合 · 碳感知

    PINN 支撑气候 1km 胞格与托卡马克毫秒控制;蛋白折叠导航缩短药企发现周期。绿色调度 gCO₂/kWh 42,量子混合优化器试点接入同一作业编排器。

    • 42 g/kWh

      碳强度

    • -41%

      气候 RMSE

    • 120s+

      托卡马克稳定

    • 4 周

      药企周期

    • 科学负载与 LLM/MoE 作业统一排队,提升集群利用率
    • ESG 报表模板对接企业可持续披露框架
    • 量子环试点结果写入实验追踪,便于复现与审计

Model zoo

深度学习模型族谱

Candies DL 预训练族谱覆盖万亿 MoE、扩散—视频联合与世界模型分支:Checkpoint 带模型卡、碳足迹与安全披露,经注册表晋升至 LLM 对齐与 CV 生成下游。选型需结合算力窗口、MFU 门禁与下游任务(对话、生成、科学仿真)。

  • Candy-MoE-1T

    MoE

    1T active

    64 专家、负载差 1.08,日 4T Tokens 稳定训练。稀疏激活对接 Candies LLM 路由与推理编译;开源分级权重 + 模型卡,含算力碳强度标签。

  • Candy-DiT-XL

    扩散

    2.4B

    四阶段 DiT 去噪,图像/视频联合生成;与 Candy-Vid-L 共享时空 VAE。训练吞吐 2.4× 基线,服务 previz、营销素材与生成式视觉产线。

  • Candy-Vid-L

    视频

    800M

    长时序一致性 VAE + 时空立方嵌入,FVD 210。面向长视频预训练、影视 previz 与安防事件摘要;Beta 合作通道 2026-Q3 开放。

FAQ

常见问题

产品

技术

部署

Next steps

扩展深度学习算力边界

万卡集群评估与 LLM 联合路线图。

本网站内容均为杜撰,如有雷同,不甚荣幸。
本中文文档采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。