Virtualization
硬件直通容器编排GPU 虚拟化量子虚拟机
Candies 虚拟化技术
全栈虚拟化——从硬件直通到量子虚拟机,统一抽象异构计算资源
虚拟化技术域聚焦计算资源的抽象与隔离,涵盖硬件直通(Passthrough)、轻量级容器编排、GPU/QPU 虚拟化、内存虚拟化(CXL)、网络功能虚拟化(NFV)与量子虚拟机六大核心技术。通过微秒级热迁移、亚百分比虚拟化开销与百万级 VM 编排能力,实现从边缘到云端的全栈资源统一管理。

核心指标
- <1%
虚拟化开销
- 1000+
单机 VM 数
- μs级
热迁移时间
- 95%
GPU 利用率
Core technologies
核心技术能力
从后硅时代处理器到宇宙尺度文件系统,全栈计算科学技术能力覆盖基础研究到工程落地。
硬件直通(Passthrough)
通过 IOMMU(Intel VT-d / AMD-Vi)实现物理设备直接分配给虚拟机,消除虚拟化层的性能开销。SR-IOV 将单个物理网卡虚拟为多个虚拟功能(VF),每个 VM 独占一个 VF,网络延迟与裸机持平。
- 性能开销 <1%
- VF 数量 256/卡
轻量级容器编排
基于 Linux 命名空间与 cgroups v2 的容器虚拟化,共享宿主内核实现毫秒级启动与微秒级资源分配。Kubernetes 与 WebAssembly(WASM)运行时的融合使容器可跨 CPU/GPU/FPGA 统一编排。
- 启动时间 <10ms
- 密度 10000+/节点
GPU 虚拟化
NVIDIA vGPU、AMD MxGPU 与 Intel GVT-g 提供硬件级 GPU 资源切分与隔离。时间片调度与内存分区使多个 VM 共享同一物理 GPU,AI 训练与推理工作负载的 GPU 利用率从 40% 提升至 95%。
- GPU 利用率 95%
- 隔离粒度 SM 级
内存虚拟化(CXL)
CXL 3.0 内存池化技术使多台服务器共享统一内存池,突破单机内存容量限制。二级地址翻译(Second-Level Address Translation)与内存去重(Memory Deduplication)技术实现透明的跨主机内存管理。
- 内存池容量 100TB+
- 访问延迟 <200ns
网络功能虚拟化(NFV)
将传统硬件网络设备(路由器、防火墙、负载均衡器)虚拟化为软件定义的网络功能。DPDK 与 SR-IOV 加速实现 100Gbps+ 的虚拟网络吞吐量,eBPF 提供可编程的数据平面。
- 吞吐量 100Gbps+
- 延迟 <5μs
量子虚拟机
在经典硬件上模拟量子计算环境的虚拟化层。量子虚拟机支持量子门电路的精确模拟(最多 40+ 量子比特)与噪声模型注入,为量子算法开发与调试提供无需真实量子硬件的开发环境。
- 模拟量子比特 40+
- 门保真度 99.9%
Architecture
全栈虚拟化系统架构

从硬件抽象到统一编排的六层核心架构——硬件直通层提供裸机级设备访问,虚拟机监控器层实现强隔离的资源切分,容器运行时层提供轻量级应用封装,GPU/QPU 虚拟化层共享加速器资源,网络虚拟化层构建可编程数据平面,统一编排层协调跨层资源调度。
硬件直通层
IOMMU 与 SR-IOV 将物理设备直接分配给虚拟机,消除虚拟化层性能开销,网络与存储 I/O 延迟与裸机持平(< 1% 开销)
虚拟机监控器(VMM)
Type-1 裸金属虚拟化层实现强隔离的 CPU/内存/设备资源切分,二级地址翻译(SLAT)优化内存虚拟化性能,微秒级热迁移保障业务连续性
容器运行时
Linux 命名空间 + cgroups v2 提供轻量级进程隔离,WebAssembly(WASM)沙箱实现跨平台应用封装,毫秒级启动与微秒级资源弹性伸缩
GPU/QPU 虚拟化层
硬件级 GPU 切分(NVIDIA vGPU / SR-IOV)与量子虚拟机模拟器共享加速器资源,SM 级隔离保障多租户 AI 训练的性能与安全
统一编排层
Kubernetes 扩展框架统一编排 VM、容器、WASM 与量子任务,eBPF 可编程数据平面实现网络策略的运行时动态调整,支持百万级工作负载管理
Comparison
行业对照
传统方案与 Candies 方案的关键技术指标对比。
| 指标 | Candies | 传统方案 |
|---|---|---|
| 虚拟化粒度 | 全栈粒度——VM / 容器 / WASM / 函数 / 量子任务,按需选择最合适的抽象层级 | 整机虚拟化(VM),每个 VM 包含完整 OS,启动时间分钟级 |
| I/O 性能 | SR-IOV 硬件直通 + DPDK 用户态网络栈,I/O 开销 < 1% | 虚拟设备模拟层引入 10-30% I/O 性能开销 |
| GPU 共享 | SM 级硬件切分(vGPU/MxGPU),内存分区隔离,利用率提升至 95% | 时间片轮转共享,上下文切换开销大,多租户隔离弱 |
| 热迁移 | 后拷贝(Post-copy) + RDMA 加速,微秒级中断,业务无感知 | 预拷贝(Pre-copy)迁移,大内存 VM 中断时间达秒级 |
| 编排规模 | 统一编排框架管理百万级工作负载,跨云/边缘/量子资源自动调度 | 单集群数千节点,跨域编排需人工干预 |
Roadmap
研发里程碑
从实验室验证到商用集群部署的完整研发路线图。
- 开源发布已完成
Xen 开源虚拟化平台发布
剑桥大学发布 Xen 虚拟机监控器,首次实现 x86 架构上的准虚拟化(Paravirtualization),开创了现代服务器虚拟化的先河,后被 Citrix 收购并成为 AWS Nitro 的技术基础之一。
- 行业标准化已完成
Kubernetes 容器编排成为行业标准
Google 开源的 Kubernetes 项目在 2014 年发布,2018 年成为 CNCF 毕业项目,确立了容器编排的行业标准地位。Kubernetes 生态系统已扩展至覆盖网络、存储、安全与 AI 工作负载管理。
- 标准集成进行中
CXL 内存池化虚拟化支持
CXL 3.0 内存池化标准与虚拟机监控器深度集成,实现跨主机内存的透明虚拟化管理。虚拟机可在不迁移的情况下访问远端内存池,数据中心内存利用率提升至 80% 以上。
- 商用部署规划中
量子虚拟机商用平台
量子虚拟机平台实现 40+ 量子比特的精确模拟与噪声模型注入,与经典 Kubernetes 编排框架集成,开发者可在统一平台上混合编排经典计算与量子计算任务。
Scenarios
应用场景
从数据中心到深空探测的典型应用案例。
云计算

多租户 GPU 云
vGPU 硬件切分使多个租户共享同一物理 GPU,AI 训练与推理工作负载的 GPU 利用率从 40% 提升至 95%,降低 AI 算力成本 60%

Serverless 函数计算
WASM 沙箱实现微秒级冷启动的函数计算,比容器快 100 倍,支持百万级并发函数实例的自动伸缩

跨云统一管理
统一编排框架管理 AWS/Azure/GCP 多云资源,工作负载根据成本、延迟与合规性自动选择最优部署位置
边缘计算

工业 IoT 边缘节点
轻量级容器运行时在 ARM 边缘设备上实现毫秒级启动的 AI 推理与数据预处理,减少 90% 的上行带宽消耗

自动驾驶车载计算
硬件直通 + 实时虚拟化在车载 SoC 上安全隔离传感器融合、路径规划与车载娱乐系统,满足 ASIL-D 功能安全等级
量子计算开发

量子算法调试
量子虚拟机在经典硬件上精确模拟量子电路,支持断点调试与状态检查,量子算法开发无需等待真实量子硬件可用

混合量子-经典任务编排
统一编排框架将量子任务与经典计算任务混合调度,根据问题特征自动选择量子或经典执行路径
Case studies
案例研究
从实验室到工程落地、从研发到产业的真实案例前后对比。

公有云
AWS Nitro 虚拟化平台
AWS Nitro 系统将虚拟化开销卸载到专用 Nitro 芯片,实现了接近裸机的 EC2 实例性能。Nitro Hypervisor 占用宿主 CPU 不到 1%,网络与存储 I/O 通过 SR-IOV 直通实现零虚拟化损耗。
- 之前
- 传统虚拟化平台 I/O 开销 10-30%,CPU 虚拟化开销 3-5%
- 之后
- Nitro 实现 < 1% CPU 开销,网络/存储 I/O 接近裸机
- <1% CPU 开销
- 裸机级 I/O 性能

AI 计算
NVIDIA A100 MIG 多实例 GPU
NVIDIA A100 GPU 的 MIG(Multi-Instance GPU)技术将单个物理 GPU 切分为最多 7 个独立 GPU 实例,每个实例拥有独立的 SM、L2 缓存与内存带宽,实现硬件级的多租户隔离。
- 之前
- GPU 时间片共享导致多租户干扰,利用率仅 40%
- 之后
- MIG 硬件切分实现 7 个独立实例,GPU 利用率提升至 95%
- 7 实例数
- 95% 利用率

Serverless
Firecracker 微虚拟机
AWS Firecracker 是专为 Serverless 与容器工作负载设计的轻量级虚拟机监控器,基于 KVM 实现毫秒级启动与 5MB 内存占用,支撑 AWS Lambda 的数十亿次函数调用。
- 之前
- 传统 VM 启动时间秒级、内存占用 GB 级,不适合 Serverless
- 之后
- Firecracker 125ms 启动、5MB 内存占用,支撑数十亿 Lambda 调用
- 125ms 启动时间
- 5MB 内存占用
Virtualization
全维度虚拟化技术
分子级容器、量子态隔离、脑机信号虚拟化、维度计算空间、现实抽象层与时间切片六大资源抽象方案。

硬件直通与 SR-IOV
通过 IOMMU 实现物理设备直接分配给虚拟机,SR-IOV 将单个物理网卡/ GPU 虚拟为多个独立虚拟功能(VF)。每个 VM 独占一个 VF,I/O 性能与裸机持平,虚拟化开销 < 1%。AWS Nitro 与 DPDK 用户态网络栈是典型实现。

容器与 WebAssembly 运行时
Linux 容器(基于命名空间 + cgroups)提供进程级隔离与毫秒级启动。WebAssembly(WASM)沙箱进一步将冷启动降至微秒级,且语言无关、平台无关。WASI(WebAssembly System Interface)标准化使 WASM 成为超越容器的下一代应用封装格式。

GPU 虚拟化技术
NVIDIA vGPU、AMD MxGPU 与 Intel GVT-g 提供硬件级 GPU 资源切分。MIG(Multi-Instance GPU)技术将单个 GPU 切分为最多 7 个独立实例,SM 级隔离保障多租户 AI 训练的性能与安全。GPU 利用率从 40% 提升至 95%。

CXL 内存池化虚拟化
CXL 3.0 打破了'一台服务器固定一块内存'的传统架构。多台服务器通过 CXL 交换机共享统一内存池(100TB+),虚拟机监控器实现跨主机内存的透明管理与动态分配,数据中心内存利用率从 50% 提升至 80%。

量子虚拟机
在经典硬件上模拟量子计算环境的虚拟化层。支持量子门电路的精确模拟(40+ 量子比特)与真实噪声模型注入,提供 QASM/QIR 等量子指令集的解释执行。量子虚拟机使量子算法开发无需等待真实量子硬件,是量子计算生态的关键基础设施。
FAQ



