跳到主要内容
Candies

Candies Neuro · Brain-Inspired

Candies Neuro X1

百亿神经元级类脑处理器,事件驱动零空转

  • 2nm 工艺
  • 120 亿神经元
  • 50 万亿突触
  • 0.1 pJ/突触操作
Candies Neuro X1 类脑芯片

核心指标

  • 0 亿

    亿人工神经元

  • 0 万亿

    万亿可塑突触

  • 0 pJ

    pJ/突触操作能效

  • 0 ms

    ms 端到端推理延时

Neural Architecture

Candies NeuroCore N4 异步类脑架构

Candies NeuroCore N4 架构图

神经核阵列、忆阻器存算一体层与 AER 异步路由三位一体,事件驱动无时钟设计,脉冲在片上按需传播而非全芯片广播,避免传统 SNN 芯片在稀疏激活时的路由拥塞与功耗浪费。

  • 神经核阵列

    1024 个 NeuroCore 单元组成 32×32 mesh,每核集成 1200 万神经元与 500 亿突触,支持 LIF / Izhikevich / Hodgkin-Huxley 多种神经元模型。

  • 忆阻器存算一体层

    32 层 HfO₂/TaOₓ 忆阻器交叉阵列堆叠于逻辑层上方,1024 级阻态精度,原位矩阵向量乘法吞吐达每秒 10¹⁵ 次。

  • AER 异步路由网络

    64×64 mesh 异步路由器,虫孔交换 + 虚通道,芯片内脉冲传输延迟 < 10 ns,支持优先级仲裁与拥塞感知自适应路由。

Core Technologies

类脑计算核心技术

从忆阻器存算一体到脉冲神经网络,全栈神经形态技术覆盖。

  • 忆阻器存算一体 · 零搬运

    第四代 HfO₂/TaOₓ 双层忆阻器交叉阵列,突触权重直接存储在阻态中,基尔霍夫定律一步完成矩阵向量乘法,彻底消除冯·诺依曼瓶颈。单层 4096×4096 阵列,32 层堆叠实现百万级并行乘加。

  • 全异步事件驱动 · 零空转

    去除全局时钟,仅在脉冲到达时激活相关神经核。典型激活率 <3%,97% 电路处于静默亚阈值状态,待机功耗 < 50 μW。AER 异步路由实现芯片间无阻塞脉冲传输。

  • 硬件在线学习 · 实时适应

    原生支持 STDP、R-STDP 与三因素学习规则的硬件实现,突触权重在推理过程中实时更新。无需云端回传,边缘设备可在部署后持续自适应环境变化。

  • SynapseLink 多芯片扩展

    Candies SynapseLink 3.0 芯片间互连,1.6 Tbps 带宽,支持 256 芯片集群扩展至 3 万亿神经元规模。拓扑感知路由自动优化脉冲路径,集群效率 > 92%。

Performance

神经形态性能基准

与传统 GPU 及学术前沿芯片对比,统一测试环境。

  • 脉冲推理吞吐(ImageNet SNN)

    领先 23×
    Candies
    4.2M FPS
    Intel Loihi 2 集群
    180K FPS
  • 推理能效比

    领先 708×
    Candies
    8500 GOPS/W
    NVIDIA H100
    12 GOPS/W
  • 语音关键词检测延时

    快 187×
    Candies
    0.08 ms
    Cortex-M7 MCU
    15 ms
  • SLAM 回环检测功耗

    功耗降 2917×
    Candies
    12 mW
    Jetson Orin
    35000 mW

测试环境:Linux 6.8、Candies Driver 3.2、室温 25°C。结果仅供产品对比参考。

Neuromorphic Computing

神经形态计算技术

脉冲神经网络、忆阻器交叉阵列、事件驱动架构、类脑芯片设计与神经形态传感器等技术模块说明。

  • 脉冲神经网络

    核心

    基于脉冲时序编码的第三代神经网络模型

    • LIF 神经元模型

      漏积分放电模型,模拟生物神经元的膜电位动态

    • STDP 学习规则

      脉冲时序依赖可塑性,根据前后脉冲时序调整突触权重

    • 时序编码

      信息编码在脉冲时序中,而非频率,提升信息密度

    脉冲神经网络结构
  • 忆阻器交叉阵列

    前沿

    存算一体的模拟计算基板

    • 模拟权重存储

      忆阻器电导值直接编码突触权重,非易失性保持

    • 原位矩阵运算

      基尔霍夫定律实现一步矩阵向量乘法

    • 多层堆叠

      3D 交叉阵列堆叠,提升集成密度和计算吞吐

    忆阻器交叉阵列
  • 事件驱动架构

    异步、稀疏、低功耗的计算范式

    • 无时钟设计

      去除全局时钟,仅在脉冲到达时激活相关电路

    • 稀疏激活

      典型激活率 <5%,大部分电路处于静默状态

    • 异步通信

      地址事件表示(AER)协议实现芯片间异步脉冲传输

    事件驱动计算流程

Hardware Specs

硬件规格

神经核、忆阻器、互连与软件栈完整参数。

神经核心

神经核心
架构代号Candies NeuroCore N4
制程工艺2nm GAA-FETCandies 联合流片
神经元规模120 亿 / 芯片
突触密度50 万亿可塑突触
突触操作能效0.1 pJ/突触(较 GPU 降低 5 个数量级)
脉冲编码时序-频率混合编码,信息密度 8× 传统 SNN

忆阻器存算一体

忆阻器存算一体
忆阻器类型HfO₂/TaOₓ 双层氧化物忆阻器
阻态精度1024 级(10-bit 等效)
耐久性10¹² 次切换
交叉阵列4096×4096 单层,32 层堆叠
原位计算基尔霍夫定律一步矩阵向量乘法

片上网络与互连

片上网络与互连
片上网络AER 异步路由,64×64 mesh 拓扑
芯片间互连Candies SynapseLink 3.0,1.6 Tbps
多芯片扩展256 芯片集群,等效 3 万亿神经元
事件吞吐每秒 10¹⁶ 脉冲事件

软件栈

软件栈
编程框架Candies NeuroSDK 4.x(PyNN / NEST 兼容)
编译器SNN-to-Memristor 自动映射编译器
在线学习硬件 STDP / R-STDP / 三因素学习规则
部署K8s Neuro Plugin / 边缘容器 / 裸金属

Applications

应用场景

从自动驾驶到脑机接口,神经形态计算的应用前沿。

自主系统与机器人

  • 自动驾驶感知融合

    事件摄像头 + LiDAR 脉冲融合,毫秒级障碍物检测与轨迹预测。

  • 无人机自主避障

    微瓦级视觉惯性里程计,续航提升 10 倍。

  • 工业机器人触觉

    脉冲触觉传感器阵列实时力控,柔顺操作亚毫米精度。

  • 水下自主探索

    声学脉冲 SLAM,深海长时自主巡航。

边缘智能与感知

  • 百万级声学传感

    城市噪声异常检测,边缘本地推理,仅上传事件摘要。

  • 可穿戴健康监测

    脉冲 ECG/EEG 实时分析,纽扣电池续航数月。

  • 智能农业传感

    田间病虫害视觉检测,太阳能供电全年运行。

  • 工业预测维护

    振动脉冲特征提取,设备故障提前 72 小时预警。

类脑智能与脑科学

  • 脑机接口解码

    1024 通道 ECoG/EEG 脉冲解码,光标/语音毫秒级控制。

  • 全脑仿真加速

    小鼠全脑 7000 万神经元实时仿真,步进 0.1ms。

  • 脉冲大语言模型

    SLLM-10B 脉冲 Transformer,推理能效较 dense LLM 提升 200×。

  • 认知推理引擎

    脉冲贝叶斯推理网络,不确定性感知决策。

Case Studies

落地案例

从实验室到产品的神经形态技术落地实践。

  • 自动驾驶感知系统

    自动驾驶

    L5 自动驾驶感知栈

    将传统 GPU 感知栈替换为 Candies Neuro X1 事件驱动方案,8 路摄像头 + 4 路激光雷达融合感知在单芯片上实时运行。

    改进前

    4× GPU 感知栈,功耗 800W,延时 45ms

    改进后

    1× Neuro X1,功耗 3.2W,延时 0.8ms

    • 功耗 ↓ 99.6%
    • 感知延时 ↓ 98.2%
  • 智慧城市传感网络

    边缘感知

    智慧城市百万传感网络

    百万级声学传感器节点部署 Candies Neuro 微核,实现异常事件本地检测与云端仅上传摘要,带宽需求降低 3 个数量级。

    改进前

    云端推理,带宽 100 Gbps,延时 2s

    改进后

    边缘 Neuro 微核,带宽 50 Mbps,延时 5ms

    • 带宽 ↓ 2000×
    • 电池寿命 ↑ 50×
  • 脑机接口解码系统

    脑机接口

    实时脑机接口解码

    1024 通道 ECoG 信号实时解码,Candies Neuro X1 在片上运行脉冲解码器,实现光标控制与语音合成的毫秒级响应。

    改进前

    GPU 解码,延时 120ms,功耗 200W

    改进后

    Neuro X1 解码,延时 0.5ms,功耗 0.8W

    • 解码延时 ↓ 99.6%
    • 功耗 ↓ 99.6%

Comparison

行业对照

与 GPU、传统处理器关键指标对比。

Candies Semiconductor 与传统方案关键指标对照
指标Candies Semiconductor传统方案
神经元规模(单芯片)120 亿Intel Loihi 2: 100 万 / IBM NorthPole: 256 万
突触操作能效0.1 pJ/突触GPU: 10-100 pJ / Loihi 2: ~2 pJ
端到端推理延时0.3 msGPU: 5-50 ms / Loihi 2: ~1 ms
忆阻器阻态精度1024 级(10-bit)学术前沿: 64-256 级
在线学习支持硬件 STDP/R-STDP/三因素GPU: 仅离线 / Loihi 2: 有限 STDP
多芯片扩展256 芯片 / 3 万亿神经元Loihi 2: 8 芯片 / NorthPole: 单芯片

FAQ

常见问题

神经形态计算的技术原理与工程现状。

通用

本网站内容均为杜撰,如有雷同,不甚荣幸。
本中文文档采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。