Candies AI · Natural Language
1000+ 语种亚 50ms 同传可验证对齐企业级 RAG 原生
Candies NLP
超人类级语言理解、千语种实时推理与可验证对齐
Candies NLP 以统一基础模型贯通 ingest、归一化、推理与护栏全链路,在 MMLU、多语 BLEU 与低资源语种覆盖上全面领先 GPT、Claude 等旗舰;面向法务、医疗、政务与全球媒体,交付可审计、可主权部署的企业级语言智能。

核心指标
0
书写系统
0
上下文窗口
0
同传 P99 ms
0
违规率
Pipeline
端到端 NLP 流水线
从多语原始语料到可审计线上推理,一条流水线覆盖 ingest、特征、生成与合规护栏;与 RAG、Speech、LLM 模块共用模型注册表与版本门禁。

Candies NLP 将 ingest、多语归一化、语义编码、生成推理与策略护栏编译为同一中间表示(IR),批处理与流式任务共享特征缓存与评测指标。企业可在私有化集群或混合云上按租户绑定数据驻留、配额与审计策略,无需为检索与生成维护两套异构栈。
多语 ingest 与归一化
统一 NFC、脚本检测与实体占位符,OCR/ASR 噪声段自动降权。权限标签在 ingest 阶段写入,下游检索与生成无法越权读取归档。
语义编码与索引
跨语共享向量空间,稠密+稀疏双索引支持 PB 级企业档案。段落级 KV 复用与引用块预计算,长文档问答召回@8k 达 98.7%。
生成、工具调用与护栏
投机解码与策略引擎内嵌,工具调用与 RAG 引用在同请求内可回放。红队探针与宪法模板版本化,未通过安全回归的构建自动阻断发布。
Capabilities
核心能力矩阵
多语语义理解
分层词表与子词路由按书写系统动态选择,跨语对齐损失在预训练阶段即拉齐表征空间。实体、事件与时间轴在统一 schema 下输出,供检索、生成与图谱构建复用。
长文档推理
8k—128k 滑动窗口配合段落级 KV 复用,法律与医疗长卷宗无需粗暴截断。每个结论附带可跳转引用块,审计时可回放命中段落与模型版本。
对齐与护栏
RLHF 与宪法 AI 双轨策略并行,红队探针按周增量入库。违规率压至万分级,策略变更与模型权重绑定版本号,满足金融与政务客户的变更管理流程。
企业语义检索
稠密+稀疏混合召回在 ACL 边界内执行,亚秒级 P95 适配 PB 级档案。命中结果附带「为什么相关」摘要,降低业务人员理解向量检索结果的门槛。
实时同传
语音—文本联合建模,会展与联络中心场景 P99 约 42ms。术语表与说话人分离可热更新,字幕与会议纪要同源生成便于事后合规存档。
低资源语种
迁移学习、合成语料与社区标注三角提升稀有文字 F1,公开评测逼近高资源语系。公平性基准单独仪表盘,避免算力与数据预算被主流语种挤占。
Architecture
统一 NLP 流水线

从多语语料 ingest、归一化、语义编码到生成与策略护栏,全链路指标可观测、失败样本可回放。批处理建库与在线推理共用 IR,避免「离线一套、线上另一套」的工程债。
多语 Tokenizer
统一子词表覆盖 1000+ 书写系统,代码与数学专用词表降低幻觉率。低资源语种可零样本接入扩展档,无需为客户单独 fork 词表。
推理与生成
投机解码、PagedAttention 与 KV 压缩组合,企业搜索与同传场景 P99 控制在百毫秒级。工具调用与函数输出走同一策略引擎,响应可审计。
对齐护栏
红队探针、宪法模板与输出水印一体化;违规样本自动进入回归集。与 Candies RAG 引用块 hash 联动,支撑可验证问答与合规抽检。
Roadmap
技术路线图
Candies NLP 公开路线图摘要:企业版 GA、多区域语义云、合规认证、边缘推理套件,以及与 LLM/RAG 栈的 IR 与评测协同。
- 产品化进行中2026-Q2
Candies NLP 企业版 GA
发布企业控制台、OpenAI 兼容 API 与 gRPC 流式接口,覆盖 ingest、批推理、在线生成与策略护栏全链路。配套私有化 Helm 套件、多租户配额与请求级审计日志,与 Candies RAG、LLM 栈共用模型注册表与评测门禁。

- 基础设施进行中2026-Q3
三大区域主动—主动语义云
在华北、欧盟与东南亚部署主动—主动推理与向量索引集群,跨区 RPO<60s、RTO<5min。数据驻留策略按租户绑定,稠密检索与生成请求在同区域闭环;全球路由层按延迟与合规标签自动选路,满足跨境法务与媒体客户的主权要求。

- 合规已完成2026-Q1
等保三级与 ISO 27001 年度复审
完成等保 2.0 三级测评续期与 ISO 27001 监督审核,输出 PHI/PII 脱敏流水线、密钥托管与日志留存策略白皮书。红队探针库与策略模板纳入版本化发布列车,未通过安全回归的模型构建自动阻断上线。

- 边缘进行中2025-Q4
边缘 NLP 推理套件(NPU / ARM)
交付 INT8/FP16 量化包与 OTA 通道,覆盖联络中心同传、车载语音与离线临床摘要。端侧 VAD + 云端纠错级联,在 4G 弱网下仍保持词错率与首包延迟 SLA;与 Speech 栈共享声学前端与说话人分离模块。

- 生态规划中2026-Q4
与 Candies LLM 同源 IR 与 Tokenizer
NLP、LLM 与 RAG 共用中间表示(IR)、子词表与对齐策略版本号,避免多栈 tokenizer 漂移导致的检索—生成不一致。开源推理 IR 与评测脚本季度同步,企业客户可在同一仪表盘对比预训练、SFT 与线上 A/B 指标。

Comparison
行业对照
| 指标 | Candies | GPT-5 | Claude 4 |
|---|---|---|---|
| MMLU 综合 | 92.4%领先 | 88.1% | 87.6% |
| 低资源 F1 | 89.2领先 | 71.4 | 73.8 |
| 同传 P99 | 42 ms领先 | 180 ms | 165 ms |
| 长文档召回@8k | 98.7%领先 | 91.2% | 90.5% |
| 对齐违规率 | 0.03%领先 | 0.18% | 0.14% |
| 企业 TCO | 0.42×领先 | 1.0× | 0.95× |
| 实体抽取 F1 | 94.1 | 88.0 | 87.2 |
| 多语 BLEU | 41.2 | 36.8 | 37.1 |
Use cases
应用场景
企业与公共事业

法务智能
对并购尽调、供应链与诉讼档案做实体—关系—判例联合抽取,条款冲突与监管变更自动高亮。隐私计算节点内推理,原始合同不出域;输出附段落级引用与策略 ID,满足内外部审计抽样。

临床 NLP
将非结构化病历、检验单与影像报告映射到院内术语体系,并按临床指南生成可复核的诊疗建议草稿。PHI 字段级脱敏与访问水印贯穿 ingest—推理;人机协同工单记录医生采纳与修改轨迹。

企业语义搜索
在 PB 级邮件、工单与规程库上运行稠密+稀疏混合召回,ACL 与数据域标签在索引层强制执行。亚秒级 P95 响应配合「为什么命中」摘要块,降低法务与合规团队的人工检索成本。
全球与公平

实时同传
会展、联络中心与跨境会议场景下,语音—文本双向流式对齐,P99 延迟约 42ms。说话人分离与术语表热更新保证专有名词稳定;字幕与纪要同源生成,便于事后合规存档。

低资源语种
为斯瓦希里语、阿姆哈拉语等低资源书写系统提供迁移学习与合成语料增强,公开评测 F1 逼近高资源语系。与人道主义、教育普惠项目共用公平性基准,避免主流语种挤占算力与数据预算。

对齐与安全
红队探针、宪法 AI 策略与输出水印形成闭环,违规样本自动进入回归集。每次生成携带策略版本与引用块 hash,监管与客户审计可按请求 ID 回放决策路径。
研发与平台

流水线可观测
从语料 ingest、特征缓存到在线推理的全链路指标写入企业 APM,支持按租户、模型版本与语种切片。失败样本一键回放至沙箱环境,研发与 SRE 共用同一套延迟、MFU 与质量门禁视图。

多语评测门禁
MMLU、多语 BLEU 与私有行业集混合回归,未达标构建在发布列车入口被自动阻断。基准结果与线上 A/B 共用仪表盘,业务方可用同一套口径验收试点与 GA 版本。

与 LLM 栈协同
Tokenizer、对齐策略与 RAG 引用块与 Candies LLM 同源 IR,避免检索片段与生成答案 token 边界不一致。DL 预训练权重经统一注册表晋升至 NLP 对齐与 LLM 推理,缩短从实验到生产的交接周期。
Case studies
产业案例

媒体
全球媒体事实摘要中枢
为跨国新闻集团搭建跨 120+ 语种的实时摘要与事实核查中枢:流式去重、实体对齐与多源一致性评分在同一流水线完成,编辑仅需复核高风险段落。
- 之前
- 各语种编辑人工汇总平均 6h+,突发新闻漏报率高
- 之后
- 机器初稿 + 编辑复核 18 min,一致性校验自动化
- 99.1% 事实一致性
- 120+ 语种覆盖

政务
政务智能办事大厅
在主权云内网部署政策—办事指南联合推理:群众自然语言提问映射到事项编码与材料清单,窗口人员可查看模型引用的法规段落与更新日期。
- 之前
- 平均等候 42 min,政策更新后 FAQ 滞后数周
- 之后
- 首轮解决 78%,政策变更 24h 内同步至知识库
- 100% 合规审计通过率
- 96.4 群众满意度

法务
跨国并购尽调加速
律所与投行联合项目:10 万页合同、许可函与诉讼记录在 72h 内完成实体—关系抽取与风险条款排序,交付可交互尽调图谱而非扁平 PDF 摘录。
- 之前
- 外部律所人工摘录约 3 周,关键条款易遗漏
- 之后
- Candies 流水线 72h 交付,人工仅复核 Top 风险
- 99.6% 关键条款召回
- 68% 法务人力节省

能源
能源集团全球知识湖
将勘探报告、 HSE 规程与设备手册纳入统一语义索引:工程师用自然语言跨语种检索,系统自动附带规程版本、适用油田与权限边界提示。
- 之前
- 跨部门检索 P95 8.2s,权限违规事件年均 7 起
- 之后
- ACL 内检索 P95 0.35s,权限违规归零
- 4.2 PB 索引规模
- 0 权限违规
R&D pillars
研发优势

Candies Language Stack · 全栈自研
数据治理—训练—对齐—推理同一技术栈
Tokenizer、预训练、SFT/RLHF、推理编译与策略引擎同源维护,避免多供应商拼接导致的指标口径分裂。企业客户可选私有化全栈或混合云推理,模型卡片自动关联数据版本、评测报告与上线审批记录。
100%
技术栈自主率
1000+
书写系统覆盖
128k
上下文窗口
v3.2
统一 IR 版本
- 多脚本统一 BPE 与代码/数学子词表,语料压缩率较通用 SentencePiece 提升约 8%
- ingest—归一化—推理—护栏四段流水线在同一中间表示上编译,批/流任务共享特征缓存
- 策略引擎支持租户级宪法模板与引用溯源,请求级可回放决策路径

Candies Scale · 规模与效率
缩放律、MFU 与延迟三角联合优化
万卡级预训练采用 3D 并行与异步分层 CKPT,节点失效恢复目标小于 2 分钟。推理侧结合投机解码、PagedAttention 与 KV 压缩,在同传与企业搜索场景下同时压低 P99 延迟与每百万 token 成本。
58%
训练 MFU
3.2×
推理吞吐提升
42 ms
同传 P99
0.42×
企业 TCO
- Chinchilla+ 风格数据—参数—算力三轴搜索,收敛步数较固定配方减少约 22%
- 专家负载均衡系数 1.08,热迁移与通信重叠降低 MoE 训练抖动
- 长文档段落级 KV 复用,128k 上下文下检索召回@8k 达 98.7%

Candies Trust · 可信语言智能
可审计、可主权部署、可验证引用
对齐违规率压至万分级(公开摘要 0.03%),红队探针与人工抽检工单纳入同一回归库。输出水印、策略 ID 与 RAG 引用块 hash 贯穿 API 响应,满足金融、政务与医疗客户的内外部审计要求。
0.03%
对齐违规率
99.8%
PHI 脱敏召回
100%
审计回放覆盖
已通过
等保/ISO 复审
- 宪法 AI + 人类偏好双轨 RLHF,策略变更需通过安全回归方可上车
- 隐私计算节点内推理选项,原始敏感语料不出客户 VPC
- 与 Candies RAG 联动的可验证引用块,幻觉类投诉率较基线下降 41%
Language coverage
全球语言覆盖矩阵
按语料规模、标注质量与线上 SLA 将 1000+ 书写系统划分为旗舰、扩展与探索三档。每档绑定独立评测集、蒸馏配方与发布门禁:旗舰语种承担同传与生成主力流量,扩展档以检索增强补足长尾,探索档服务人道主义与教育普惠并持续回流高价值语料到扩展池。
旗舰
48完整 SFT + RLHF + 行业私有集微调;提供同传、长文档生成与企业搜索全量 SLA。季度红队与安全回归为发布前置条件。
zh-Hans · en · ja · ar · es · fr · de · pt-BR
扩展
220+Teacher 蒸馏 + 稠密/稀疏混合 RAG;适用于跨境客服、媒体摘要与政务多语窗口。公开 BLEU/F1 与私有行业集混合门禁。
sw · bn · am · vi · th · uk · he · id
探索
800+迁移学习、合成语料与社区协作标注;面向低资源公平性基准与人道主义项目。达标语种按季度晋升扩展档并纳入商业 SLA 路线图。
haw · gd · zu · qu · mi · cy · xh · yo

FAQ