Candies AI · Machine Learning
AutoML因果推断联邦学习Feature Store
Candies ML
AutoML · 因果推断 · 在线学习 · 企业 MLOps
Candies ML 将特征商店、因果图、AutoML 与漂移监控铸成闭环工厂,在表格 Kaggle 级基准与金融风控 AUC 上持续刷新 SOTA,让业务团队以周级周期交付可解释、可审计的决策模型。

核心指标
0
训练提速
0
特征点查
0
SLA
0目标
离在线偏差
MLOps
MLOps 流水线
从 Jupyter/流水线实验到生产 Serving 一条链,研发、数据科学与 SRE 共用同一套模型注册表与门禁。

Candies MLOps 以 GitOps 编排训练、评估、注册与生产发布:实验指标、超参、工件与数据血缘写入不可变存储,模型卡片自动关联特征版本与审批记录。灰度、影子与回滚与 CI/CD 同源,部署回滚公开摘要 <30s;数据/预测漂移双通道告警 TTD 3 分钟。
实验追踪与可复现
参数、指标、随机种子与数据集切片哈希绑定;失败实验一键复现环境。AutoML 搜索轨迹与因果/uplift 报告一并归档,满足金融与能源行业审计抽样。
模型注册与发布列车
Staging→Prod 晋升需通过 AUC/Fairness/漂移门禁与人工审批。影子流量对比未达标构建自动阻断;回滚 <30s 并保留上一稳定版本的特征快照 ID。
监控与闭环
数据漂移、预测漂移、公平性与 SLA 四维告警;触发后可选自动重训或彗星在线更新。告警事件关联 Feature Store 版本与 Serving 集群,便于根因定位。
Capabilities
核心能力矩阵
AutoML
结构搜索与贝叶斯超参优化,表格数据小时级出模,胜出率 94%。自动生成 SHAP/ICE 与业务规则对照报告,风控委员会可直接审计特征贡献与阈值。
因果推断
Do-calculus 仿真、DAG 可解释与 uplift 编排一体化,ATE 误差 ±1.2%。零售定价、营销干预 10 天级全国实验,输出可执行策略而非仅相关性。
在线学习
漂移 TTD 3 min,彗星权重更新跟踪概念漂移。推荐、风控、电网负荷无需周级全量重训;与监控联动自动灰度或回滚。
Feature Store
离在线同一 DSL,点-in-time 回溯,在线点查 P99 8ms。物化模板接入 Spark/Flink,晋升模型时校验 Serving 特征版本一致。
可解释性
SHAP/ICE、公平性切片与业务规则对照报告随模型卡片发布。监管抽检可导出「当时特征版本 + 解释文档」包,缩短合规应答时间。
MLOps
GitOps 训练、注册、灰度、影子、回滚 <30s 与 CI/CD 同源。数据/预测漂移双通道告警,实验—生产指标口径一致。
Features
Feature Store
特征定义、物化、服务三层解耦,版本分支如时间线可回溯,支撑周级模型迭代与分钟级漂移响应。

Candies Feature Store 用同一套特征 DSL 驱动离线回溯与在线点查,点-in-time 正确性消除训练—服务偏差(离在线偏差目标 0)。批量物化由 Spark/Flink 模板生成,在线服务 P99 公开摘要 8ms,多级缓存支撑风控与推荐毫秒级决策。
特征 DSL 与血缘
声明聚合窗口、TTL、实体键与派生逻辑;上游表/流变更自动触发影响分析。训练集切片与线上 Serving 引用同一版本号,审计时可导出「当时用了哪些特征」。
离线与实时物化
批作业模板化接入数据湖;流式特征与 CDC 同步更新在线存储。联邦场景下仅交换梯度或加密统计,原始样本不出域,特征定义仍全局一致。
在线特征服务
Redis/RocksDB 多级缓存 + 批量预取,P99 8ms。与 MLOps 注册表联动:晋升模型时自动校验 Serving 集群已加载对应特征版本,避免「新模型旧特征」事故。
Architecture
MLOps 闭环工厂

数据接入—特征工程—训练/AutoML—因果评估—部署—监控六段闭环在同一控制平面编排:Feature Store 居中,保障离在线一致;漂移检出后触发在线学习或重训,形成「监测—决策—再训练」飞轮。业务团队以周级周期交付可解释、可审计的表格决策模型。
特征时间旅行
点-in-time 回溯杜绝标签泄漏;训练集与线上一致性可验证。金融风控、供应链与电网调度等场景依赖长窗口聚合特征,版本 diff 可视化。
因果实验室
DAG 编辑、Do-calculus 仿真与 uplift 度量一体化;零售定价、营销干预可在 10 天级完成全国门店实验编排,ATE 误差公开摘要 ±1.2%。
在线学习
概念漂移分钟级检出(TTD 3 min),彗星权重更新避免全量重训。与监控告警联动,自动回滚或灰度新权重,GPU 利用率摘要 78%。
Roadmap
技术路线图
Candies ML 公开路线图:企业版 GA、Feature Store 2.0 联邦、因果实验室、监控 SLA 与行业 AutoML 模板库。
- 产品化进行中2026-Q2
Candies ML 企业版 GA
发布 MLOps 控制台、Feature Store 托管服务与 AutoML/因果/联邦一体化 API。模型注册、审批、灰度、回滚与漂移告警纳入同一租户视图;配套私有化 Helm 与 /gpu 训练算力协同套餐。

- 平台进行中2026-Q3
Feature Store 2.0 · 联邦兼容
特征 DSL 支持跨域加密统计与梯度火花交换;五国银行联邦风控 PoC 验收通过。在线点查 P99 8ms,离在线偏差审计工具开箱即用。

- 产品已完成2026-Q1
因果实验室 GA
DAG 仿真、uplift 编排与可解释报告模板通过零售、金融法务联审。全国 2 万门店定价实验从传统 A/B 8 周缩短至因果方案 10 天,毛利提升 3.8% 可复现。

- 运维进行中2025-Q4
模型监控 SLA 认证
漂移、公平性与 Serving SLA 三维告警 TTD 3 min;与 PagerDuty/飞书打通。能源电网客户调度偏差从 8% 压至 2.1%,可再生消纳 +14%。

- 生态规划中2026-Q4
行业 AutoML 模板库
金融风控、供应链、零售定价等模板开放申请;表格 AutoML 胜出率 94%,小时级出模。与 Candies GPU 集群预置配方联动,训练时长降至基线 0.12×。

Comparison
行业对照
| 指标 | Candies | Vertex AI | SageMaker |
|---|---|---|---|
| 表格 AUC | 0.942领先 | 0.901 | 0.905 |
| 训练时长 | 0.12×领先 | 1.0× | 1.0× |
| 特征延迟 | 4.8 ms领先 | 22 ms | 18 ms |
| 漂移检出 | 99.2%领先 | 88.0% | 90.1% |
| 部署回滚 | <30s领先 | 分钟级 | 分钟级 |
| 因果 ATE 误差 | 0.04领先 | 0.11 | 0.10 |
| GPU 利用率 | 78% | 52% | 55% |
| 审计覆盖 | 100% | 部分 | 部分 |
Use cases
应用场景
决策智能

AutoML 表格
金融、零售、能源表格数据自动特征工程与模型搜索,胜出率 94%。小时级交付可解释模型,SHAP/ICE 报告与业务规则对照自动生成,满足风控委员会审计。

因果推断
DAG 编辑、干预仿真与 uplift 编排一体化;零售定价、营销投放可在 10 天级完成全国实验。ATE 误差 ±1.2%,报告含可执行策略建议而非仅相关分析。

在线学习
流式特征彗星更新权重,漂移 TTD 3 min 触发增量训练或回滚。适配推荐、风控与电网负荷尖峰,无需每周全量重训即可跟踪概念漂移。
平台能力

联邦学习
梯度火花与加密统计不出域,跨国银行、运营商联盟联合训练。带宽公开摘要 0.31×,合规审计 100% 覆盖;特征定义全局一致,仅交换必要更新。

特征商店
离在线同一 DSL,点-in-time 回溯与版本分支可视化。在线点查 P99 8ms,物化作业模板接入 Spark/Flink;晋升模型时自动校验 Serving 特征版本。

模型监控
数据漂移、预测漂移、公平性与 SLA 一体告警,TTD 3 min。告警关联实验 ID、特征版本与部署集群,支持自动重训、灰度或 <30s 回滚。
Case studies
产业案例

物流
全球供应链风险预言机
头部物流企业接入港口、仓库、运力与气象多源特征:AutoML + 在线学习将断链预警从平均 5 天提前至 18 小时,召回 96%、误报 2.1%。
- 之前
- 断链预警约 5 天,多系统特征不一致
- 之后
- 18 h 预警,统一 Feature Store 版本
- 96% 风险召回
- 2.1% 误报率

能源
电网负荷与新能源调度
省级电网调度中心:风光出力、负荷尖峰与备用机组特征在同一 MLOps 闭环迭代,调度偏差从 8% 降至 2.1%,可再生消纳提升 14%。
- 之前
- 调度偏差 8%,漂移检出滞后
- 之后
- 偏差 2.1%,TTD 3 min 触发更新
- +14% 可再生消纳
- -22% 备用成本

零售
全国零售定价因果实验
连锁零售 2 万门店 uplift 实验:因果实验室编排干预与对照,10 天完成一季 120 组实验;毛利提升 3.8%,较传统 A/B 8 周大幅缩短。
- 之前
- 全国 A/B 约 8 周/轮,结论难解释
- 之后
- 因果方案 10 天/轮,DAG 可审计
- 3.8% 毛利提升
- 120/季 实验吞吐

金融
跨国银行联邦风控
五国法人数据不出境联合训练反欺诈模型:联邦梯度火花 + 统一特征 DSL,联合 AUC 0.91 vs 单国 0.82,欺诈损失下降 37%,合规审计全通过。
- 之前
- 单国 AUC 0.82,跨境样本无法汇合
- 之后
- 联邦 AUC 0.91,审计 100% 通过
- 0.91 联合 AUC
- -37% 欺诈损失
R&D pillars
研发优势

Candies MLOps · 闭环平台
数据—特征—训练—部署—监控
自研控制平面贯通 GitOps 训练编排、模型注册与 Serving 灰度;与 Feature Store、因果实验室、联邦运行时同源元数据。部署回滚 <30s,审计覆盖 100%,避免 Databricks/SageMaker 拼接带来的口径分裂。
< 30s
部署回滚
3 min
漂移 TTD
94%
AutoML 胜出率
100%
审计覆盖
- 模型卡片自动绑定数据血缘、特征版本与审批记录,金融抽检一键导出
- 影子流量 + 门禁阻断未达标构建,研发与业务共用指标仪表盘
- 与 /gpu 集群套餐联动,训练时长降至基线 0.12×

Candies Decision · 决策科学
AutoML + 因果 + 在线学习
表格 AutoML、因果 DAG 与彗星在线学习在同一实验中枢迭代。因果 uplift 误差 ±1.2%,在线学习跟踪漂移无需周级全量重训;SHAP/ICE 与业务规则对照报告自动生成。
0.942
表格 AUC
±1.2%
ATE 误差
8 ms
特征点查 P99
78%
GPU 利用率
- 结构搜索 + 贝叶斯超参,小时级出模并附带可解释报告
- 全国门店级 uplift 编排,实验周期从 8 周缩至 10 天
- 漂移触发彗星更新或自动重训,概念漂移分钟级响应

Candies Federated · 可信联邦
数据不出域,模型可联合
联邦运行时支持梯度火花、加密统计与差分隐私组合;带宽 0.31×,满足跨国金融、医疗与运营商联盟合规。特征 DSL 全局一致,仅交换必要更新,审计链完整。
0.31×
带宽占用
+0.09
联合 AUC 提升
100%
合规审计
0 目标
离在线偏差
- 五国银行联邦风控 PoC 验收,欺诈损失 -37%
- 与 Feature Store 2.0 打通,跨域特征定义同步
- 联邦 round 与 MLOps 注册表联动,晋升需通过公平性门禁
FAQ