Candies Neuro · Brain-Inspired
Candies Neuro X1
百亿神经元级类脑处理器,事件驱动零空转
- 2nm 工艺
- 120 亿神经元
- 50 万亿突触
- 0.1 pJ/突触操作
核心指标
0 亿
亿人工神经元
0 万亿
万亿可塑突触
0 pJ
pJ/突触操作能效
0 ms
ms 端到端推理延时
Neural Architecture
Candies NeuroCore N4 异步类脑架构
神经核阵列、忆阻器存算一体层与 AER 异步路由三位一体,事件驱动无时钟设计,脉冲在片上按需传播而非全芯片广播,避免传统 SNN 芯片在稀疏激活时的路由拥塞与功耗浪费。
神经核阵列
1024 个 NeuroCore 单元组成 32×32 mesh,每核集成 1200 万神经元与 500 亿突触,支持 LIF / Izhikevich / Hodgkin-Huxley 多种神经元模型。
忆阻器存算一体层
32 层 HfO₂/TaOₓ 忆阻器交叉阵列堆叠于逻辑层上方,1024 级阻态精度,原位矩阵向量乘法吞吐达每秒 10¹⁵ 次。
AER 异步路由网络
64×64 mesh 异步路由器,虫孔交换 + 虚通道,芯片内脉冲传输延迟 < 10 ns,支持优先级仲裁与拥塞感知自适应路由。
Core Technologies
类脑计算核心技术
从忆阻器存算一体到脉冲神经网络,全栈神经形态技术覆盖。
忆阻器存算一体 · 零搬运
第四代 HfO₂/TaOₓ 双层忆阻器交叉阵列,突触权重直接存储在阻态中,基尔霍夫定律一步完成矩阵向量乘法,彻底消除冯·诺依曼瓶颈。单层 4096×4096 阵列,32 层堆叠实现百万级并行乘加。
全异步事件驱动 · 零空转
去除全局时钟,仅在脉冲到达时激活相关神经核。典型激活率 <3%,97% 电路处于静默亚阈值状态,待机功耗 < 50 μW。AER 异步路由实现芯片间无阻塞脉冲传输。
硬件在线学习 · 实时适应
原生支持 STDP、R-STDP 与三因素学习规则的硬件实现,突触权重在推理过程中实时更新。无需云端回传,边缘设备可在部署后持续自适应环境变化。
SynapseLink 多芯片扩展
Candies SynapseLink 3.0 芯片间互连,1.6 Tbps 带宽,支持 256 芯片集群扩展至 3 万亿神经元规模。拓扑感知路由自动优化脉冲路径,集群效率 > 92%。
Performance
神经形态性能基准
与传统 GPU 及学术前沿芯片对比,统一测试环境。
脉冲推理吞吐(ImageNet SNN)
领先 23×- Candies
- 4.2M FPS
- Intel Loihi 2 集群
- 180K FPS
推理能效比
领先 708×- Candies
- 8500 GOPS/W
- NVIDIA H100
- 12 GOPS/W
语音关键词检测延时
快 187×- Candies
- 0.08 ms
- Cortex-M7 MCU
- 15 ms
SLAM 回环检测功耗
功耗降 2917×- Candies
- 12 mW
- Jetson Orin
- 35000 mW
测试环境:Linux 6.8、Candies Driver 3.2、室温 25°C。结果仅供产品对比参考。
Neuromorphic Computing
神经形态计算技术
脉冲神经网络、忆阻器交叉阵列、事件驱动架构、类脑芯片设计与神经形态传感器等技术模块说明。
脉冲神经网络
核心基于脉冲时序编码的第三代神经网络模型
LIF 神经元模型
漏积分放电模型,模拟生物神经元的膜电位动态
STDP 学习规则
脉冲时序依赖可塑性,根据前后脉冲时序调整突触权重
时序编码
信息编码在脉冲时序中,而非频率,提升信息密度

忆阻器交叉阵列
前沿存算一体的模拟计算基板
模拟权重存储
忆阻器电导值直接编码突触权重,非易失性保持
原位矩阵运算
基尔霍夫定律实现一步矩阵向量乘法
多层堆叠
3D 交叉阵列堆叠,提升集成密度和计算吞吐

事件驱动架构
异步、稀疏、低功耗的计算范式
无时钟设计
去除全局时钟,仅在脉冲到达时激活相关电路
稀疏激活
典型激活率 <5%,大部分电路处于静默状态
异步通信
地址事件表示(AER)协议实现芯片间异步脉冲传输

Hardware Specs
硬件规格
神经核、忆阻器、互连与软件栈完整参数。
神经核心
| 架构代号 | Candies NeuroCore N4 |
|---|---|
| 制程工艺 | 2nm GAA-FETCandies 联合流片 |
| 神经元规模 | 120 亿 / 芯片 |
| 突触密度 | 50 万亿可塑突触 |
| 突触操作能效 | 0.1 pJ/突触(较 GPU 降低 5 个数量级) |
| 脉冲编码 | 时序-频率混合编码,信息密度 8× 传统 SNN |
忆阻器存算一体
| 忆阻器类型 | HfO₂/TaOₓ 双层氧化物忆阻器 |
|---|---|
| 阻态精度 | 1024 级(10-bit 等效) |
| 耐久性 | 10¹² 次切换 |
| 交叉阵列 | 4096×4096 单层,32 层堆叠 |
| 原位计算 | 基尔霍夫定律一步矩阵向量乘法 |
片上网络与互连
| 片上网络 | AER 异步路由,64×64 mesh 拓扑 |
|---|---|
| 芯片间互连 | Candies SynapseLink 3.0,1.6 Tbps |
| 多芯片扩展 | 256 芯片集群,等效 3 万亿神经元 |
| 事件吞吐 | 每秒 10¹⁶ 脉冲事件 |
软件栈
| 编程框架 | Candies NeuroSDK 4.x(PyNN / NEST 兼容) |
|---|---|
| 编译器 | SNN-to-Memristor 自动映射编译器 |
| 在线学习 | 硬件 STDP / R-STDP / 三因素学习规则 |
| 部署 | K8s Neuro Plugin / 边缘容器 / 裸金属 |
Applications
应用场景
从自动驾驶到脑机接口,神经形态计算的应用前沿。
自主系统与机器人
自动驾驶感知融合
事件摄像头 + LiDAR 脉冲融合,毫秒级障碍物检测与轨迹预测。
无人机自主避障
微瓦级视觉惯性里程计,续航提升 10 倍。
工业机器人触觉
脉冲触觉传感器阵列实时力控,柔顺操作亚毫米精度。
水下自主探索
声学脉冲 SLAM,深海长时自主巡航。
边缘智能与感知
百万级声学传感
城市噪声异常检测,边缘本地推理,仅上传事件摘要。
可穿戴健康监测
脉冲 ECG/EEG 实时分析,纽扣电池续航数月。
智能农业传感
田间病虫害视觉检测,太阳能供电全年运行。
工业预测维护
振动脉冲特征提取,设备故障提前 72 小时预警。
类脑智能与脑科学
脑机接口解码
1024 通道 ECoG/EEG 脉冲解码,光标/语音毫秒级控制。
全脑仿真加速
小鼠全脑 7000 万神经元实时仿真,步进 0.1ms。
脉冲大语言模型
SLLM-10B 脉冲 Transformer,推理能效较 dense LLM 提升 200×。
认知推理引擎
脉冲贝叶斯推理网络,不确定性感知决策。
Case Studies
落地案例
从实验室到产品的神经形态技术落地实践。

自动驾驶
L5 自动驾驶感知栈
将传统 GPU 感知栈替换为 Candies Neuro X1 事件驱动方案,8 路摄像头 + 4 路激光雷达融合感知在单芯片上实时运行。
改进前
4× GPU 感知栈,功耗 800W,延时 45ms
改进后
1× Neuro X1,功耗 3.2W,延时 0.8ms
- 功耗 ↓ 99.6%
- 感知延时 ↓ 98.2%

边缘感知
智慧城市百万传感网络
百万级声学传感器节点部署 Candies Neuro 微核,实现异常事件本地检测与云端仅上传摘要,带宽需求降低 3 个数量级。
改进前
云端推理,带宽 100 Gbps,延时 2s
改进后
边缘 Neuro 微核,带宽 50 Mbps,延时 5ms
- 带宽 ↓ 2000×
- 电池寿命 ↑ 50×

脑机接口
实时脑机接口解码
1024 通道 ECoG 信号实时解码,Candies Neuro X1 在片上运行脉冲解码器,实现光标控制与语音合成的毫秒级响应。
改进前
GPU 解码,延时 120ms,功耗 200W
改进后
Neuro X1 解码,延时 0.5ms,功耗 0.8W
- 解码延时 ↓ 99.6%
- 功耗 ↓ 99.6%
Comparison
行业对照
与 GPU、传统处理器关键指标对比。
| 指标 | Candies Semiconductor | 传统方案 |
|---|---|---|
| 神经元规模(单芯片) | 120 亿 | Intel Loihi 2: 100 万 / IBM NorthPole: 256 万 |
| 突触操作能效 | 0.1 pJ/突触 | GPU: 10-100 pJ / Loihi 2: ~2 pJ |
| 端到端推理延时 | 0.3 ms | GPU: 5-50 ms / Loihi 2: ~1 ms |
| 忆阻器阻态精度 | 1024 级(10-bit) | 学术前沿: 64-256 级 |
| 在线学习支持 | 硬件 STDP/R-STDP/三因素 | GPU: 仅离线 / Loihi 2: 有限 STDP |
| 多芯片扩展 | 256 芯片 / 3 万亿神经元 | Loihi 2: 8 芯片 / NorthPole: 单芯片 |
FAQ
常见问题
神经形态计算的技术原理与工程现状。