跳到主要内容
Candies
跳到主要内容

Candies AI · Foundation Model R&D

MoE 预训练可验证对齐评测 harness推理编译

Candies LLM R&D

语料—预训练—对齐—评测—推理:领先十年的大语言模型研发底座

Candies 大语言模型平台贯通 ingest、Tokenizer、万亿 MoE 预训练、SFT·DPO·RLHF 对齐、240+ 项评测 harness 与推理编译七段流水线;与 Candies DL 万卡拓扑共享 CKPT 注册表与 MFU 看板,面向国家实验室、超算中心与产业龙头的可复现、可审计、可主权部署交付。

Candies 大语言模型研发神经网络主视觉

核心指标

  • 58%

    MFU

  • 3.2×

    推理吞吐

  • 128k

    上下文

  • 100%

    栈自主率

Capabilities

核心能力矩阵

  • 预训练与缩放

    Candies LLM 在「预训练与缩放」方向将 Chinchilla+ 风格三轴联合搜索,MFU 58% 与收敛步数 -22% 实测。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。

  • 对齐与 RLHF

    Candies LLM 在「对齐与 RLHF」方向将 宪法 AI + 人类偏好双轨,违规率万分级且可回放策略决策。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。 版本迭代与训练数据治理纳入同一发布列车。

  • 推理编译

    Candies LLM 在「推理编译」方向将 PagedAttention、投机解码与 EP 并行,吞吐 3.2× 较基线。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。 版本迭代与训练数据治理纳入同一发布列车。

  • Tokenizer 自研

    Candies LLM 在「Tokenizer 自研」方向将 多语 BPE 与代码/数学专用子词表,压缩率优于 SentencePiece 8%。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。

  • MoE 路由

    Candies LLM 在「MoE 路由」方向将 专家负载均衡 1.08,热迁移与通信重叠。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。 版本迭代与训练数据治理纳入同一发布列车。

  • 评测与门禁

    Candies LLM 在「评测与门禁」方向将 公开+私有基准同一仪表盘,发布列车阻断未达标构建。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。 版本迭代与训练数据治理纳入同一发布列车。

Architecture

LLM 研发流水线

Candies 大语言模型端到端研发流水线架构

语料 ingest—多语 Tokenizer—万亿 MoE 预训练—SFT·DPO·RLHF 对齐—千项评测 harness—推理编译—发布列车七段同源可观测:每段产出携带数据版本、策略 ID 与基准快照,研发中断可回滚至最近一致 checkpoint。与 Candies DL 万卡拓扑共享 placement、MFU 与 CKPT 注册表,避免「训练在 DL、对齐在 LLM」的工程割裂。

  • 语料、Tokenizer 与预训练

    多模态语料配比实验室支持 Chinchilla+ 三轴联合搜索,MFU 58% 与收敛步数 -22% 实测。自研多语 BPE 与代码/数学专用子词表压缩率优于 SentencePiece 8%;合成数据工厂以种子裂变、去污染滤网与血缘图谱保障预训练集可审计。

  • 对齐、评测与发布门禁

    宪法 AI 与人类偏好双轨:奖励模型棱镜标定、偏好锥可视化与违规样本万分级可回放。公开与私有基准同一 harness,240+ 项齐射 checkpoint;未达标构建在发布列车入口自动阻断,与线上 A/B 共用指标口径。

  • 推理编译与规模交付

    PagedAttention、投机解码与 EP 并行组合,推理吞吐 3.2× 较基线;长上下文 R&D 支撑公里级文档记忆 lattice。权重经统一注册表从 DL 晋升至对齐与推理,面向国家实验室、超算中心与开源社区的可复现交付包同源生成。

Comparison

行业对照

Candies LLM 行业指标对照
指标CandiesGPT-5Claude 4
MMLU92.8%领先88.5%87.9%
HumanEval91.2%领先84.0%85.1%
推理延迟 P9938 ms领先95 ms88 ms
MFU@8k GPU58%领先41%44%
对齐违规0.02%领先0.15%0.12%
128k 困惑度2.1领先2.82.7
MoE 负载差1.081.381.32
TCO/百万 token0.39×1.0×0.94×

Use cases

应用场景

基础研发

  • 万亿 MoE 预训练与专家并行拓扑

    万亿 MoE 预训练

    在 Candies DL 万卡光路拓扑上运行万亿参数 MoE:专家门控、负载均衡 1.08 与损失地貌联合优化,通信—计算重叠将气泡压至行业最低档。Chinchilla+ 缩放律自动搜索数据—算力—宽度配比,checkpoint 与实验元数据写入 LLM 研发控制台,中断恢复 <90s。

  • SFT 与 RLHF 对齐实验室可视化

    SFT·RLHF 对齐实验室

    监督微调、DPO 与 RLHF 共用偏好数据集与奖励模型棱镜:宪法 AI 模板与人类标注双轨标定,策略决策可按请求 ID 回放。红队探针、越狱样本与修复补丁纳入同一回归集,违规率稳定在万分级,满足金融与政务级合规验收。

  • 可审计合成数据工厂流水线

    合成数据工厂

    以高质量种子语料驱动多轮裂变合成,去污染滤网与 n-gram 重叠检测阻断 benchmark 泄漏。每条合成样本携带血缘图谱与生成策略版本,可与预训练配比实验联动 A/B;面向低资源语种与代码/数学专用域的定向增广,缩短从数据缺口到可训练集的天数。

评测、长上下文与推理

  • 千项基准齐射 checkpoint 评测 harness

    开放评测 harness

    MMLU、HumanEval、多语理解与 200+ 项私有行业基准在同一 harness 齐射每个 checkpoint,结果写入发布门禁仪表盘。基准分数与线上 A/B、监管沙箱审计共用指标口径,未达标构建无法进入权重发布列车。

  • 公里级长上下文记忆 lattice 研究

    长上下文 R&D

    环形注意力、记忆 lattice 与 KV 压缩组合,在公里级文档与百万 token 上下文上保持困惑度曲线平稳。研发与推理共用同一编译栈,企业 RAG、法律尽调与科研文献综述场景可在单请求内完成跨章节推理,无需手工分块。

  • 量化与投机解码推理优化研发

    推理优化 R&D

    INT4/FP8 量化晶格、投机解码与专家并行(EP)在统一编译器中联合搜索,吞吐 3.2× 较 vanilla 基线,P99 延迟满足实时 copilot 与联络中心。与 DL 集群共享 placement 与 MFU 看板,推理节点可热切换权重版本而不中断在途会话。

交付与生态

  • 主权云内网私有化大语言模型部署

    主权云私有化部署

    全栈可在客户 VPC 或主权云内网离线交付:权重、Tokenizer、对齐策略与评测 harness 同源打包,出站流量为零。租户级策略护栏、审计日志与模型卡自动生成,满足等保、GDPR 与行业监管的双盲抽检要求。

  • 开源权重与可复现模型卡发布

    开放权重与模型卡

    旗舰权重发布附带完整复现包:训练配置、基准报告、安全红队摘要与分级 API 配额策略。社区可在 24h 内复现公开榜单分数,下载周级达百万量级;与 Candies Hub 模型注册表联动,版本晋升路径透明可审计。

  • 多机构联合训练与治理中枢

    多机构联合治理

    国家级实验室与产业龙头共用 checkpoint 巨石与联合治理面板:算力份额、数据贡献与署名策略链上可验证。跨机构实验从立项到权重合并全程留痕,避免「各训各的、无法对齐」的协作僵局。

Case studies

产业案例

  • 国家级 AI 实验室联合训练治理中枢

    科研

    国家级 AI 实验室联合训练

    十二家顶尖实验室在 Candies 联合治理面板上共享万亿 MoE checkpoint 与 harness 指标:算力、语料与署名策略链上可验证,预训练—对齐—评测全链路留痕。协作机构从孤立实验台迁往统一注册表,MFU 从 41% 提升至 57%,跨机构权重合并周期由数月缩短至数周。

    之前
    各机构孤立训练,checkpoint 不可互认,协作周期 4–6 月
    之后
    统一 harness 与 CKPT 巨石,联合发布 6 周可交付
    • 57% MFU
    • 12 协作机构
  • 开源旗舰大语言模型权重全球发布

    开源

    开源旗舰权重全球发布

    Candies 旗舰大语言模型以完整复现包开源:模型卡、240+ 项基准报告、红队摘要与分级 API 同步上线。社区 72h 内复现公开榜单 SOTA,首周下载 210 万次;与 Hub 注册表联动,后续补丁版本可差分热更新。

    之前
    权重可下载但训练细节缺失,复现率不足 30%
    之后
    配置+数据谱系+评测同源,社区复现率 94%
    • 2.1M 首周下载
    • 240+ 基准项
  • 超算中心万亿 MoE 驻场训练

    超算

    超算中心万亿 MoE 驻场训练

    国家超算中心将 24k GPU 队列与 Candies DL—LLM 栈深度对接:MoE 专家并行、CKPT 分层存储与绿色调度同构交付,月吞吐 8T tokens。训练中断恢复 <90s,实验元数据实时同步至 LLM 对齐实验室,避免超算侧「只训不对齐」的交付断层。

    之前
    MFU 39%,CKPT 恢复 12 min 级,DL 与 LLM 割裂
    之后
    MFU 58%,恢复 <90s,权重一键晋升对齐
    • 24k GPU
    • 8T 月 Tokens
  • 金融监管沙箱大语言模型对齐审计

    监管

    金融级监管沙箱对齐审计

    头部银行在监管沙箱内部署 Candies LLM:红队—修复闭环与 harness 同源,每次生成携带策略版本与引用块 hash。监管抽检由人工 2 周缩短为实时 24h 仪表盘,违规率稳定在 0.02%,审计通过率连续四个季度 100%。

    之前
    抽检周期 2 周,决策路径不可回放
    之后
    实时 harness + 请求级审计,24h 闭环
    • 0.02% 违规率
    • 100% 审计通过

FAQ

常见问题

平台

训练

推理

合规

生态

R&D toolkit

研发工作台

预训练、对齐、数据、评测与推理优化五类工具矩阵,覆盖基础模型研发全链路。

预训练

万亿 MoE 预训练编排

专家并行拓扑与数据配比实验矩阵。

预训练

多模态语料配比实验

图文音统一配比与消融追踪。

微调与对齐

SFT 课程学习流水线

难度递增样本与遗忘抑制。

微调与对齐

RLHF / DPO 对齐沙箱

偏好数据与奖励模型版本治理。

数据工程

合成数据与去污染

种子裂变、近重复与许可审查。

数据工程

长上下文切片与打分

质量模型与记忆热点标注。

评测与观测

开放基准一键评测

240+ 基准与回归门禁。

评测与观测

训练/推理全链路追踪

MFU、梯度范数与路由热力图。

推理优化

量化与投机解码

INT4/FP8 与 ghost token 实验台。

推理优化

MoE 专家路由压测

负载均衡与热点专家熔断。

Platform

训练平台模块

  • 实验与 Checkpoint 中枢

    W&B 级实验追踪、断点续训与权重版本治理。

    • 时间旅行对比
    • 自动归档
    • 跨团队共享
  • 分布式训练调度

    万卡作业队列、拓扑感知 placement,与 DL 集群互联。

    • 拓扑感知
    • 抢占恢复
    • 绿色电力优先
  • 对齐与安全实验室

    RLHF 沙箱、红队探针与策略约束可验证。

    • 红队剧本
    • 策略 DSL
    • 审计导出
  • 开放模型发布

    评测报告、模型卡与权重/API 分级发布。

    • 模型卡生成
    • 伦理披露
    • 分级 API

Industry

应用精选 · 产业验证

高价值行业示例,不作为主叙事重心。

  • 金融

    合规推理与审计可追溯

    监管沙箱内可验证推理链,满足穿透式审计。

  • 制造

    工艺知识库联合推理

    规程、图纸与代码跨模态问答,驻场私有化。

  • 政务

    公文与政策对齐生成

    主权云部署,政策库 grounding 与红头格式约束。

  • 科研

    论文辅助与假设生成

    文献 harness 与实验设计建议,强调可复现引用。

R&D pillars

研发优势

  • 缩放定律可视化

    缩放定律与效率

    算力-数据-参数联合最优

    MFU 与收敛稳定性行业领先,缩放律曲面实时拟合。

    • 58%

      MFU

    • -22%

      收敛步数

    • 三轴最优曲面可视化
    • 自适应 batch 与 LR
  • 全栈研发塔

    全栈自研

    Tokenizer 到推理引擎一体

    训练框架、对齐管线与推理编译器同源代码库。

    • 100%

      组件自主率

    • 单仓

      版本对齐

    • 统一 IR 下降
    • 专家路由融合算子
  • 安全对齐环

    安全对齐

    可验证对齐管线

    红队—策略—修复闭环,违规率 0.03% 以下。

    • 18k+

      红队探针

    • <24h

      修复 SLA

    • 策略 DSL 可执行
    • 偏好数据血缘
  • 开放科学束

    开放与复现

    基准可复现包

    模型卡、伦理披露与种子权重社区发布。

    • 240+

      基准覆盖

    • 99.2%

      复现率

    • 一键复现容器
    • 开放权重分级

Next steps

共建下一代基础模型

与国家实验室、超算中心及产业龙头联合研发。

本网站内容均为杜撰,如有雷同,不甚荣幸。
本中文文档采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。