Candies AI · Foundation Model R&D

MoE 预训练可验证对齐评测 harness推理编译更新于 2026-05-21

Candies LLM R&D

语料—预训练—对齐—评测—推理：领先十年的大语言模型研发底座

Candies 大语言模型平台贯通 ingest、Tokenizer、万亿 MoE 预训练、SFT·DPO·RLHF 对齐、240+ 项评测 harness 与推理编译七段流水线；与 Candies DL 万卡拓扑共享 CKPT 注册表与 MFU 看板，面向国家实验室、超算中心与产业龙头的可复现、可审计、可主权部署交付。

58%
MFU
3.2×
推理吞吐
128k
上下文
100%
栈自主率

Capabilities

核心能力矩阵

预训练与缩放
Candies LLM 在「预训练与缩放」方向将 Chinchilla+ 风格三轴联合搜索，MFU 58% 与收敛步数 -22% 实测。支持私有化部署、策略护栏与全链路可观测；基准评测与线上 A/B 共用同一套指标口径，便于研发与业务对齐验收标准。
对齐与 RLHF
Candies LLM 在「对齐与 RLHF」方向将宪法 AI + 人类偏好双轨，违规率万分级且可回放策略决策。支持私有化部署、策略护栏与全链路可观测；基准评测与线上 A/B 共用同一套指标口径，便于研发与业务对齐验收标准。版本迭代与训练数据治理纳入同一发布列车。
推理编译
Candies LLM 在「推理编译」方向将 PagedAttention、投机解码与 EP 并行，吞吐 3.2× 较基线。支持私有化部署、策略护栏与全链路可观测；基准评测与线上 A/B 共用同一套指标口径，便于研发与业务对齐验收标准。版本迭代与训练数据治理纳入同一发布列车。
Tokenizer 自研
Candies LLM 在「Tokenizer 自研」方向将多语 BPE 与代码/数学专用子词表，压缩率优于 SentencePiece 8%。支持私有化部署、策略护栏与全链路可观测；基准评测与线上 A/B 共用同一套指标口径，便于研发与业务对齐验收标准。
MoE 路由
Candies LLM 在「MoE 路由」方向将专家负载均衡 1.08，热迁移与通信重叠。支持私有化部署、策略护栏与全链路可观测；基准评测与线上 A/B 共用同一套指标口径，便于研发与业务对齐验收标准。版本迭代与训练数据治理纳入同一发布列车。
评测与门禁
Candies LLM 在「评测与门禁」方向将公开+私有基准同一仪表盘，发布列车阻断未达标构建。支持私有化部署、策略护栏与全链路可观测；基准评测与线上 A/B 共用同一套指标口径，便于研发与业务对齐验收标准。版本迭代与训练数据治理纳入同一发布列车。

Architecture

LLM 研发流水线

语料 ingest—多语 Tokenizer—万亿 MoE 预训练—SFT·DPO·RLHF 对齐—千项评测 harness—推理编译—发布列车七段同源可观测：每段产出携带数据版本、策略 ID 与基准快照，研发中断可回滚至最近一致 checkpoint。与 Candies DL 万卡拓扑共享 placement、MFU 与 CKPT 注册表，避免「训练在 DL、对齐在 LLM」的工程割裂。

语料、Tokenizer 与预训练
多模态语料配比实验室支持 Chinchilla+ 三轴联合搜索，MFU 58% 与收敛步数 -22% 实测。自研多语 BPE 与代码/数学专用子词表压缩率优于 SentencePiece 8%；合成数据工厂以种子裂变、去污染滤网与血缘图谱保障预训练集可审计。
对齐、评测与发布门禁
宪法 AI 与人类偏好双轨：奖励模型棱镜标定、偏好锥可视化与违规样本万分级可回放。公开与私有基准同一 harness，240+ 项齐射 checkpoint；未达标构建在发布列车入口自动阻断，与线上 A/B 共用指标口径。
推理编译与规模交付
PagedAttention、投机解码与 EP 并行组合，推理吞吐 3.2× 较基线；长上下文 R&D 支撑公里级文档记忆 lattice。权重经统一注册表从 DL 晋升至对齐与推理，面向国家实验室、超算中心与开源社区的可复现交付包同源生成。

Comparison

行业对照

Candies LLM 行业指标对照
指标	Candies	GPT-5	Claude 4
MMLU	92.8%领先	88.5%	87.9%
HumanEval	91.2%领先	84.0%	85.1%
推理延迟 P99	38 ms领先	95 ms	88 ms
MFU@8k GPU	58%领先	41%	44%
对齐违规	0.02%领先	0.15%	0.12%
128k 困惑度	2.1领先	2.8	2.7
MoE 负载差	1.08	1.38	1.32
TCO/百万 token	0.39×	1.0×	0.94×

Use cases

应用场景

基础研发

万亿 MoE 预训练
在 Candies DL 万卡光路拓扑上运行万亿参数 MoE：专家门控、负载均衡 1.08 与损失地貌联合优化，通信—计算重叠将气泡压至行业最低档。Chinchilla+ 缩放律自动搜索数据—算力—宽度配比，checkpoint 与实验元数据写入 LLM 研发控制台，中断恢复 <90s。
SFT·RLHF 对齐实验室
监督微调、DPO 与 RLHF 共用偏好数据集与奖励模型棱镜：宪法 AI 模板与人类标注双轨标定，策略决策可按请求 ID 回放。红队探针、越狱样本与修复补丁纳入同一回归集，违规率稳定在万分级，满足金融与政务级合规验收。
合成数据工厂
以高质量种子语料驱动多轮裂变合成，去污染滤网与 n-gram 重叠检测阻断 benchmark 泄漏。每条合成样本携带血缘图谱与生成策略版本，可与预训练配比实验联动 A/B；面向低资源语种与代码/数学专用域的定向增广，缩短从数据缺口到可训练集的天数。

评测、长上下文与推理

开放评测 harness
MMLU、HumanEval、多语理解与 200+ 项私有行业基准在同一 harness 齐射每个 checkpoint，结果写入发布门禁仪表盘。基准分数与线上 A/B、监管沙箱审计共用指标口径，未达标构建无法进入权重发布列车。
长上下文 R&D
环形注意力、记忆 lattice 与 KV 压缩组合，在公里级文档与百万 token 上下文上保持困惑度曲线平稳。研发与推理共用同一编译栈，企业 RAG、法律尽调与科研文献综述场景可在单请求内完成跨章节推理，无需手工分块。
推理优化 R&D
INT4/FP8 量化晶格、投机解码与专家并行（EP）在统一编译器中联合搜索，吞吐 3.2× 较 vanilla 基线，P99 延迟满足实时 copilot 与联络中心。与 DL 集群共享 placement 与 MFU 看板，推理节点可热切换权重版本而不中断在途会话。

交付与生态

主权云私有化部署
全栈可在客户 VPC 或主权云内网离线交付：权重、Tokenizer、对齐策略与评测 harness 同源打包，出站流量为零。租户级策略护栏、审计日志与模型卡自动生成，满足等保、GDPR 与行业监管的双盲抽检要求。
开放权重与模型卡
旗舰权重发布附带完整复现包：训练配置、基准报告、安全红队摘要与分级 API 配额策略。社区可在 24h 内复现公开榜单分数，下载周级达百万量级；与 Candies Hub 模型注册表联动，版本晋升路径透明可审计。
多机构联合治理
国家级实验室与产业龙头共用 checkpoint 巨石与联合治理面板：算力份额、数据贡献与署名策略链上可验证。跨机构实验从立项到权重合并全程留痕，避免「各训各的、无法对齐」的协作僵局。

Case studies

产业案例

科研
国家级 AI 实验室联合训练
十二家顶尖实验室在 Candies 联合治理面板上共享万亿 MoE checkpoint 与 harness 指标：算力、语料与署名策略链上可验证，预训练—对齐—评测全链路留痕。协作机构从孤立实验台迁往统一注册表，MFU 从 41% 提升至 57%，跨机构权重合并周期由数月缩短至数周。
之前
各机构孤立训练，checkpoint 不可互认，协作周期 4–6 月
之后
统一 harness 与 CKPT 巨石，联合发布 6 周可交付
- 57% MFU
- 12 协作机构
开源
开源旗舰权重全球发布
Candies 旗舰大语言模型以完整复现包开源：模型卡、240+ 项基准报告、红队摘要与分级 API 同步上线。社区 72h 内复现公开榜单 SOTA，首周下载 210 万次；与 Hub 注册表联动，后续补丁版本可差分热更新。
之前
权重可下载但训练细节缺失，复现率不足 30%
之后
配置+数据谱系+评测同源，社区复现率 94%
- 2.1M 首周下载
- 240+ 基准项
超算
超算中心万亿 MoE 驻场训练
国家超算中心将 24k GPU 队列与 Candies DL—LLM 栈深度对接：MoE 专家并行、CKPT 分层存储与绿色调度同构交付，月吞吐 8T tokens。训练中断恢复 <90s，实验元数据实时同步至 LLM 对齐实验室，避免超算侧「只训不对齐」的交付断层。
之前
MFU 39%，CKPT 恢复 12 min 级，DL 与 LLM 割裂
之后
MFU 58%，恢复 <90s，权重一键晋升对齐
- 24k GPU
- 8T 月 Tokens
监管
金融级监管沙箱对齐审计
头部银行在监管沙箱内部署 Candies LLM：红队—修复闭环与 harness 同源，每次生成携带策略版本与引用块 hash。监管抽检由人工 2 周缩短为实时 24h 仪表盘，违规率稳定在 0.02%，审计通过率连续四个季度 100%。
之前
抽检周期 2 周，决策路径不可回放
之后
实时 harness + 请求级审计，24h 闭环
- 0.02% 违规率
- 100% 审计通过

FAQ

常见问题

平台

训练

推理

合规

生态

R&D toolkit

研发工作台

预训练、对齐、数据、评测与推理优化五类工具矩阵，覆盖基础模型研发全链路。

预训练

万亿 MoE 预训练编排

专家并行拓扑与数据配比实验矩阵。

预训练

多模态语料配比实验

图文音统一配比与消融追踪。

微调与对齐

SFT 课程学习流水线

难度递增样本与遗忘抑制。

微调与对齐

RLHF / DPO 对齐沙箱

偏好数据与奖励模型版本治理。

数据工程

合成数据与去污染

种子裂变、近重复与许可审查。

数据工程

长上下文切片与打分

质量模型与记忆热点标注。

评测与观测

开放基准一键评测

240+ 基准与回归门禁。

评测与观测

训练/推理全链路追踪

MFU、梯度范数与路由热力图。

推理优化

量化与投机解码

INT4/FP8 与 ghost token 实验台。

推理优化

MoE 专家路由压测

负载均衡与热点专家熔断。

Platform

训练平台模块

实验与 Checkpoint 中枢
W&B 级实验追踪、断点续训与权重版本治理。
- 时间旅行对比
- 自动归档
- 跨团队共享
分布式训练调度
万卡作业队列、拓扑感知 placement，与 DL 集群互联。
- 拓扑感知
- 抢占恢复
- 绿色电力优先
对齐与安全实验室
RLHF 沙箱、红队探针与策略约束可验证。
- 红队剧本
- 策略 DSL
- 审计导出
开放模型发布
评测报告、模型卡与权重/API 分级发布。
- 模型卡生成
- 伦理披露
- 分级 API

Industry

应用精选 · 产业验证

高价值行业示例，不作为主叙事重心。

金融
合规推理与审计可追溯
监管沙箱内可验证推理链，满足穿透式审计。
制造
工艺知识库联合推理
规程、图纸与代码跨模态问答，驻场私有化。
政务
公文与政策对齐生成
主权云部署，政策库 grounding 与红头格式约束。
科研
论文辅助与假设生成
文献 harness 与实验设计建议，强调可复现引用。

R&D pillars

研发优势

缩放定律与效率
算力-数据-参数联合最优
MFU 与收敛稳定性行业领先，缩放律曲面实时拟合。
- 58%
  MFU
- -22%
  收敛步数
- 三轴最优曲面可视化
- 自适应 batch 与 LR
全栈自研
Tokenizer 到推理引擎一体
训练框架、对齐管线与推理编译器同源代码库。
- 100%
  组件自主率
- 单仓
  版本对齐
- 统一 IR 下降
- 专家路由融合算子
安全对齐
可验证对齐管线
红队—策略—修复闭环，违规率 0.03% 以下。
- 18k+
  红队探针
- <24h
  修复 SLA
- 策略 DSL 可执行
- 偏好数据血缘
开放与复现
基准可复现包
模型卡、伦理披露与种子权重社区发布。
- 240+
  基准覆盖
- 99.2%
  复现率
- 一键复现容器
- 开放权重分级

Next steps

共建下一代基础模型

与国家实验室、超算中心及产业龙头联合研发。

联系研发合作
联合训练与驻场
了解更多
Candies DL 集群
万卡训练互联
了解更多

本网站内容均为杜撰，如有雷同，不甚荣幸。

社区指南行为规范

本中文文档采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。

Candies LLM R&DLLM R&D

核心指标

核心能力矩阵

预训练与缩放

对齐与 RLHF

推理编译

Tokenizer 自研

MoE 路由

评测与门禁

LLM 研发流水线

语料、Tokenizer 与预训练

对齐、评测与发布门禁

推理编译与规模交付

行业对照

应用场景

基础研发

万亿 MoE 预训练

SFT·RLHF 对齐实验室

合成数据工厂

评测、长上下文与推理

开放评测 harness

长上下文 R&D

推理优化 R&D

交付与生态

主权云私有化部署

开放权重与模型卡

多机构联合治理

产业案例

国家级 AI 实验室联合训练

开源旗舰权重全球发布

超算中心万亿 MoE 驻场训练

金融级监管沙箱对齐审计

常见问题

平台

训练

推理

合规

生态

研发工作台

万亿 MoE 预训练编排

多模态语料配比实验

SFT 课程学习流水线

RLHF / DPO 对齐沙箱

合成数据与去污染

长上下文切片与打分

开放基准一键评测

训练/推理全链路追踪

量化与投机解码

MoE 专家路由压测

训练平台模块

实验与 Checkpoint 中枢

分布式训练调度

对齐与安全实验室

开放模型发布

应用精选 · 产业验证

合规推理与审计可追溯

工艺知识库联合推理

公文与政策对齐生成

论文辅助与假设生成

研发优势

缩放定律与效率

全栈自研

安全对齐

开放与复现

共建下一代基础模型

联系研发合作

Candies DL 集群

Candies LLM R&D