
实时光追影院级画质
第四代 RT Core 与 Candies 路径追踪管线协同,在 4K 路径下仍保持稳定帧时预算,为云游戏与数字孪生提供影院级反射与全局光照。
Candies Silicon · Graphics
3nm 工艺920 亿晶体管峰值 2.4 PFLOPS FP16
全球最先进的图形处理器,图形、推理与智算三位一体
Candies GPU 采用全栈自研架构与晶圆级协同设计,在峰值算力、能效比与显存带宽上全面超越 NVIDIA、AMD 同期旗舰。面向云游戏、AIGC 与万卡智算集群,以单卡替代多卡集群,将端到端延时与 TCO 推向新基准。

0+
峰值算力(TFLOPS FP16)
0×
推理能效较业界旗舰
0
TB/s 显存带宽
0
等效 CUDA 核心簇
Specifications
Candies Core X1 完整技术参数,涵盖计算、显存、媒体与软件栈。
| 架构代号 | Candies Core X1 |
|---|---|
| 制程工艺 | 3nmCandies 联合流片 |
| 晶体管数量 | 920 亿 |
| 等效 CUDA 核心 | 128 簇 / 32768 流处理器 |
| 峰值算力 | 2.4 PFLOPS(FP16)/ 1.2 PFLOPS(FP32) |
| 张量核心 | 第 5 代,支持 FP8 / INT4 稀疏 |
| 显存容量 | 192 GB HBM3e |
|---|---|
| 显存带宽 | 3.8 TB/s |
| 互连 | Candies Infinity Fabric 2.0 |
| PCIe | Gen6 x16(双向 256 GB/s) |
| 多卡扩展 | 72 卡 NVLink 等效池化,延迟 < 1.2 μs |
| 光线追踪 | 硬件 RT Core 第 4 代,10 G Rays/s |
|---|---|
| 编解码 | AV1 / H.265 8K@120 路并发 |
| 显示输出 | 8× DisplayPort 2.1 / HDMI 2.1 |
| 运行时 | Candies Runtime 3.x |
|---|---|
| 框架 | PyTorch / TensorFlow / ONNX 原生加速 |
| 虚拟化 | MIG 512 切片 / SR-IOV |
| 驱动 | Linux / Windows,容器与 K8s Device Plugin |
Core capabilities
图形、推理、虚拟化与开发者生态一体贯通,软硬件协同释放 Candies Core X1 全部潜能。

第四代 RT Core 与 Candies 路径追踪管线协同,在 4K 路径下仍保持稳定帧时预算,为云游戏与数字孪生提供影院级反射与全局光照。

第五代张量核心原生支持 FP8 与结构化稀疏,LLM 与扩散模型推理首 token 时延较业界旗舰降低 62%,支撑万级并发会话。

MIG 512 路切片与 SR-IOV 直通并举,单卡可安全隔离多租户工作负载,智算中心 GPU 利用率提升 3.1 倍。

统一 Runtime、Profiler 与 K8s Device Plugin,从本地调试到集群弹性调度一条命令完成,分钟级接入主流 AI 框架。
Benchmarks
Candies 实验室统一环境;对比对象为同期 NVIDIA / AMD 旗舰 GPU。
测试环境:Linux 6.8、Candies Driver 3.2、室温 25°C。结果仅供产品对比参考。
Case studies
云游戏、AIGC 与智算集群的真实部署前后对比。

云游戏
将单节点 72 卡 NVIDIA 集群替换为 2 卡 Candies GPU,端到端串流延时显著下降。
部署前
8× 竞品旗舰,P99 延时 42ms
部署后
2× Candies GPU,P99 延时 18ms

生成式 AI
扩散模型与 LLM 混部在同一 GPU 池,Candies Runtime 统一调度张量与图形管线。
部署前
分离 GPU 池,资源利用率 38%
部署后
统一 Candies 池,利用率 81%

智算集群
万卡级训练集群采用 Candies Infinity Fabric 池化,故障域切换时间缩短至秒级。
部署前
12000 卡竞品,扩展效率 71%
部署后
3200 卡 Candies,等效算力 +12%
Use cases
图形与沉浸、AI 与多模态、数据中心与云,覆盖 Candies GPU 全栈能力域。
4K 路径追踪与 DLSS 等效超分一体化管线。
低延时编码与多路会话隔离,单卡千路级并发。
8 路 DisplayPort 2.1 同步输出与 HDR 校准。
工业场景大规模网格与实时光影仿真。
70B~405B 模型 INT4/FP8 高吞吐服务。
混合精度训练与梯度检查点硬件加速。
视觉-语言联合编码与张量核融合。
Embedding 检索与重排低延时批处理。
AV1 8K 多路硬编与质量自适应。
GPU 加速 SQL 与列存算子融合。
K8s 切片调度与多租户计费。
双精度与稀疏线性代数库原生优化。
Architecture

计算簇、HBM3e 与 Infinity Fabric 2.0 三位一体,图形与张量管线共享片上高速缓存,避免传统 GPU 在 AI 与光追切换时的带宽空转。
128 组计算簇可按工作负载动态划分为图形、张量或通用计算单元。
8 通道 HBM3e 控制器与 96 MB 最后一级缓存协同,显存访问延迟降低 28%。
多卡池化带宽 1.2 TB/s,支持智算集群拓扑感知调度与故障域秒级切换。
Comparison
与 NVIDIA、AMD 同期旗舰 GPU 关键指标对比(Candies 实验室测试)。
| 指标 | Candies GPU | NVIDIA 旗舰 | AMD 旗舰 |
|---|---|---|---|
| 峰值算力(FP16) | 2.4 PFLOPS领先 | 0.98 PFLOPS | 0.61 PFLOPS |
| 显存容量 | 192 GB HBM3e领先 | 80 GB HBM3 | 128 GB HBM3e |
| 显存带宽 | 3.8 TB/s领先 | 3.35 TB/s | 3.2 TB/s |
| 推理能效(TOPS/W) | 520领先 | 128 | 124 |
| TDP | 400 W领先 | 700 W | 750 W |
| 多卡互连带宽 | 1.2 TB/s领先 | 0.9 TB/s | 0.88 TB/s |