万亿 MoE 预训练编排
专家并行拓扑与数据配比实验矩阵。
Candies AI · Foundation Model R&D
MoE 预训练可验证对齐评测 harness推理编译
从预训练到对齐评测的一体化基础模型研发平台
Candies LLM 研发平台覆盖语料合成、万亿 MoE 预训练、SFT·RLHF 对齐、开放基准 harness 与推理编译全链路;与 Candies DL 万卡集群深度互联,应用能力仅以精选案例呈现。

0
MFU
0
推理吞吐
0
上下文
0
栈自主率
Capabilities
Candies LLM 在「预训练与缩放」方向将 Chinchilla+ 风格三轴联合搜索,MFU 58% 与收敛步数 -22% 实测。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。
Candies LLM 在「对齐与 RLHF」方向将 宪法 AI + 人类偏好双轨,违规率万分级且可回放策略决策。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。 版本迭代与训练数据治理纳入同一发布列车。
Candies LLM 在「推理编译」方向将 PagedAttention、投机解码与 EP 并行,吞吐 3.2× 较基线。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。 版本迭代与训练数据治理纳入同一发布列车。
Candies LLM 在「Tokenizer 自研」方向将 多语 BPE 与代码/数学专用子词表,压缩率优于 SentencePiece 8%。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。
Candies LLM 在「MoE 路由」方向将 专家负载均衡 1.08,热迁移与通信重叠。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。 版本迭代与训练数据治理纳入同一发布列车。
Candies LLM 在「评测与门禁」方向将 公开+私有基准同一仪表盘,发布列车阻断未达标构建。 支持私有化部署、策略护栏与全链路可观测;基准评测与线上 A/B 共用同一套指标口径,便于研发与业务对齐验收标准。 版本迭代与训练数据治理纳入同一发布列车。
Architecture

语料—Tokenizer—预训练—SFT—RLHF—评测—推理编译七段可观测。
多模态语料配比与词表实验平台。
偏好学习与 harness 同源指标。
与 DL 集群共享 placement 与 MFU 看板。
Comparison
| 指标 | Candies | GPT-5 | Claude 4 |
|---|---|---|---|
| MMLU | 92.8%领先 | 88.5% | 87.9% |
| HumanEval | 91.2%领先 | 84.0% | 85.1% |
| 推理延迟 P99 | 38 ms领先 | 95 ms | 88 ms |
| MFU@8k GPU | 58%领先 | 41% | 44% |
| 对齐违规 | 0.02%领先 | 0.15% | 0.12% |
| 128k 困惑度 | 2.1领先 | 2.8 | 2.7 |
| MoE 负载差 | 1.08 | 1.38 | 1.32 |
| TCO/百万 token | 0.39× | 1.0× | 0.94× |
Use cases

专家门控与损失地貌联合优化。

偏好锥与奖励模型棱镜标定。

种子裂变与去污染滤网。

千项基准齐射 checkpoint。

公里级文档穿过记忆 lattice。

量化晶格与投机 ghost token。
Case studies

科研
共享 checkpoint 巨石与联合治理。

开源
模型卡、评测报告与分级 API。

超算
与 DL 页共享万卡队列。

监管
红队—修复闭环可验证。
FAQ
R&D toolkit
预训练、对齐、数据、评测与推理优化五类工具矩阵,覆盖基础模型研发全链路。
专家并行拓扑与数据配比实验矩阵。
图文音统一配比与消融追踪。
难度递增样本与遗忘抑制。
偏好数据与奖励模型版本治理。
种子裂变、近重复与许可审查。
质量模型与记忆热点标注。
240+ 基准与回归门禁。
MFU、梯度范数与路由热力图。
INT4/FP8 与 ghost token 实验台。
负载均衡与热点专家熔断。
Platform
W&B 级实验追踪、断点续训与权重版本治理。
万卡作业队列、拓扑感知 placement,与 DL 集群互联。
RLHF 沙箱、红队探针与策略约束可验证。
评测报告、模型卡与权重/API 分级发布。
Industry
高价值行业示例,不作为主叙事重心。
金融
监管沙箱内可验证推理链,满足穿透式审计。
制造
规程、图纸与代码跨模态问答,驻场私有化。
政务
主权云部署,政策库 grounding 与红头格式约束。
科研
文献 harness 与实验设计建议,强调可复现引用。
R&D pillars

算力-数据-参数联合最优
MFU 与收敛稳定性行业领先,缩放律曲面实时拟合。
58%
MFU
-22%
收敛步数

Tokenizer 到推理引擎一体
训练框架、对齐管线与推理编译器同源代码库。
100%
组件自主率
单仓
版本对齐

可验证对齐管线
红队—策略—修复闭环,违规率 0.03% 以下。
18k+
红队探针
<24h
修复 SLA

基准可复现包
模型卡、伦理披露与种子权重社区发布。
240+
基准覆盖
99.2%
复现率