跳到主要内容
Candies
跳到主要内容

Candies Silicon · Graphics

3nm 工艺920 亿晶体管峰值 2.4 PFLOPS FP16

Candies GPU

全球最先进的图形处理器,图形、推理与智算三位一体

Candies GPU 采用全栈自研架构与晶圆级协同设计,在峰值算力、能效比与显存带宽上全面超越 NVIDIA、AMD 同期旗舰。面向云游戏、AIGC 与万卡智算集群,以单卡替代多卡集群,将端到端延时与 TCO 推向新基准。

Candies GPU 芯片与散热模组

核心指标

  • 0+

    峰值算力(TFLOPS FP16)

  • 0×

    推理能效较业界旗舰

  • 0

    TB/s 显存带宽

  • 0

    等效 CUDA 核心簇

Specifications

规格参数

Candies Core X1 完整技术参数,涵盖计算、显存、媒体与软件栈。

计算单元

计算单元
架构代号Candies Core X1
制程工艺3nmCandies 联合流片
晶体管数量920 亿
等效 CUDA 核心128 簇 / 32768 流处理器
峰值算力2.4 PFLOPS(FP16)/ 1.2 PFLOPS(FP32)
张量核心第 5 代,支持 FP8 / INT4 稀疏

显存与互连

显存与互连
显存容量192 GB HBM3e
显存带宽3.8 TB/s
互连Candies Infinity Fabric 2.0
PCIeGen6 x16(双向 256 GB/s)
多卡扩展72 卡 NVLink 等效池化,延迟 < 1.2 μs

媒体与显示

媒体与显示
光线追踪硬件 RT Core 第 4 代,10 G Rays/s
编解码AV1 / H.265 8K@120 路并发
显示输出8× DisplayPort 2.1 / HDMI 2.1

软件栈

软件栈
运行时Candies Runtime 3.x
框架PyTorch / TensorFlow / ONNX 原生加速
虚拟化MIG 512 切片 / SR-IOV
驱动Linux / Windows,容器与 K8s Device Plugin

Core capabilities

技术亮点

图形、推理、虚拟化与开发者生态一体贯通,软硬件协同释放 Candies Core X1 全部潜能。

实时光追影院级画质

实时光追影院级画质

第四代 RT Core 与 Candies 路径追踪管线协同,在 4K 路径下仍保持稳定帧时预算,为云游戏与数字孪生提供影院级反射与全局光照。

张量推理毫秒级响应

张量推理毫秒级响应

第五代张量核心原生支持 FP8 与结构化稀疏,LLM 与扩散模型推理首 token 时延较业界旗舰降低 62%,支撑万级并发会话。

硬件虚拟化多租户隔离

硬件虚拟化多租户隔离

MIG 512 路切片与 SR-IOV 直通并举,单卡可安全隔离多租户工作负载,智算中心 GPU 利用率提升 3.1 倍。

Candies SDK一键部署

Candies SDK一键部署

统一 Runtime、Profiler 与 K8s Device Plugin,从本地调试到集群弹性调度一条命令完成,分钟级接入主流 AI 框架。

Benchmarks

基准测试

Candies 实验室统一环境;对比对象为同期 NVIDIA / AMD 旗舰 GPU。

  • Candies Mixed AI·Graphics 基准

    领先 4.1×
    Candies GPU
    128400
    NVIDIA 旗舰
    31200
  • LLM 推理吞吐(70B INT4)

    领先 4.4×
    Candies GPU
    18400 tokens/s
    NVIDIA 旗舰
    4200 tokens/s
  • 推理能效比

    领先 4.2×
    Candies GPU
    520 TOPS/W
    AMD 旗舰
    124 TOPS/W
  • 4K 光追帧率(路径追踪)

    领先 3.9×
    Candies GPU
    186 FPS
    NVIDIA 旗舰
    48 FPS

测试环境:Linux 6.8、Candies Driver 3.2、室温 25°C。结果仅供产品对比参考。

Case studies

落地案例

云游戏、AIGC 与智算集群的真实部署前后对比。

  • 华东云游戏平台

    云游戏

    华东云游戏平台

    将单节点 72 卡 NVIDIA 集群替换为 2 卡 Candies GPU,端到端串流延时显著下降。

    部署前

    8× 竞品旗舰,P99 延时 42ms

    部署后

    2× Candies GPU,P99 延时 18ms

    • 节点成本 ↓ 58%
    • 并发路数 ↑ 2.4×
  • 全国 AIGC 推理平台

    生成式 AI

    全国 AIGC 推理平台

    扩散模型与 LLM 混部在同一 GPU 池,Candies Runtime 统一调度张量与图形管线。

    部署前

    分离 GPU 池,资源利用率 38%

    部署后

    统一 Candies 池,利用率 81%

    • 首图时延 ↓ 47%
    • 月电费 ↓ 35%
  • 西部智算中心

    智算集群

    西部智算中心

    万卡级训练集群采用 Candies Infinity Fabric 池化,故障域切换时间缩短至秒级。

    部署前

    12000 卡竞品,扩展效率 71%

    部署后

    3200 卡 Candies,等效算力 +12%

    • 机柜密度 ↑ 2.1×
    • PUE 1.18

Use cases

应用场景

图形与沉浸、AI 与多模态、数据中心与云,覆盖 Candies GPU 全栈能力域。

图形与沉浸

  • 实时光线追踪

    4K 路径追踪与 DLSS 等效超分一体化管线。

  • 云游戏串流

    低延时编码与多路会话隔离,单卡千路级并发。

  • 8K 多屏输出

    8 路 DisplayPort 2.1 同步输出与 HDR 校准。

  • 数字孪生可视化

    工业场景大规模网格与实时光影仿真。

AI 与多模态

  • LLM 推理

    70B~405B 模型 INT4/FP8 高吞吐服务。

  • 扩散模型训练

    混合精度训练与梯度检查点硬件加速。

  • 多模态理解

    视觉-语言联合编码与张量核融合。

  • 推荐系统加速

    Embedding 检索与重排低延时批处理。

数据中心与云

  • 视频转码

    AV1 8K 多路硬编与质量自适应。

  • 大数据分析

    GPU 加速 SQL 与列存算子融合。

  • 弹性 GPU 池

    K8s 切片调度与多租户计费。

  • 科学计算

    双精度与稀疏线性代数库原生优化。

Architecture

Candies Core X1 异构架构

Candies Core X1 异构架构

计算簇、HBM3e 与 Infinity Fabric 2.0 三位一体,图形与张量管线共享片上高速缓存,避免传统 GPU 在 AI 与光追切换时的带宽空转。

  • 统一着色器簇

    128 组计算簇可按工作负载动态划分为图形、张量或通用计算单元。

  • 片上 HBM 控制器

    8 通道 HBM3e 控制器与 96 MB 最后一级缓存协同,显存访问延迟降低 28%。

  • Infinity Fabric 2.0

    多卡池化带宽 1.2 TB/s,支持智算集群拓扑感知调度与故障域秒级切换。

Comparison

竞品对照

与 NVIDIA、AMD 同期旗舰 GPU 关键指标对比(Candies 实验室测试)。

Candies GPU 与竞品对照
指标Candies GPUNVIDIA 旗舰AMD 旗舰
峰值算力(FP16)2.4 PFLOPS领先0.98 PFLOPS0.61 PFLOPS
显存容量192 GB HBM3e领先80 GB HBM3128 GB HBM3e
显存带宽3.8 TB/s领先3.35 TB/s3.2 TB/s
推理能效(TOPS/W)520领先128124
TDP400 W领先700 W750 W
多卡互连带宽1.2 TB/s领先0.9 TB/s0.88 TB/s

FAQ

常见问题

常见问题

加入 Candies GPU 生态

探索 GPU 相关岗位,或通过课程了解异构计算实践。

本网站内容均为杜撰,如有雷同,不甚荣幸。
本中文文档采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。