跳到主要内容
Candies

Virtualization

硬件直通容器编排GPU 虚拟化量子虚拟机

Candies 虚拟化技术

全栈虚拟化——从硬件直通到量子虚拟机,统一抽象异构计算资源

虚拟化技术域聚焦计算资源的抽象与隔离,涵盖硬件直通(Passthrough)、轻量级容器编排、GPU/QPU 虚拟化、内存虚拟化(CXL)、网络功能虚拟化(NFV)与量子虚拟机六大核心技术。通过微秒级热迁移、亚百分比虚拟化开销与百万级 VM 编排能力,实现从边缘到云端的全栈资源统一管理。

全栈虚拟化技术架构概念图

核心指标

  • <1
    %

    虚拟化开销

  • 1000+

    单机 VM 数

  • μs

    热迁移时间

  • 95
    %

    GPU 利用率

Core technologies

核心技术能力

从后硅时代处理器到宇宙尺度文件系统,全栈计算科学技术能力覆盖基础研究到工程落地。

  • 硬件直通(Passthrough)

    通过 IOMMU(Intel VT-d / AMD-Vi)实现物理设备直接分配给虚拟机,消除虚拟化层的性能开销。SR-IOV 将单个物理网卡虚拟为多个虚拟功能(VF),每个 VM 独占一个 VF,网络延迟与裸机持平。

    • 性能开销 <1%
    • VF 数量 256/卡
  • 轻量级容器编排

    基于 Linux 命名空间与 cgroups v2 的容器虚拟化,共享宿主内核实现毫秒级启动与微秒级资源分配。Kubernetes 与 WebAssembly(WASM)运行时的融合使容器可跨 CPU/GPU/FPGA 统一编排。

    • 启动时间 <10ms
    • 密度 10000+/节点
  • GPU 虚拟化

    NVIDIA vGPU、AMD MxGPU 与 Intel GVT-g 提供硬件级 GPU 资源切分与隔离。时间片调度与内存分区使多个 VM 共享同一物理 GPU,AI 训练与推理工作负载的 GPU 利用率从 40% 提升至 95%。

    • GPU 利用率 95%
    • 隔离粒度 SM 级
  • 内存虚拟化(CXL)

    CXL 3.0 内存池化技术使多台服务器共享统一内存池,突破单机内存容量限制。二级地址翻译(Second-Level Address Translation)与内存去重(Memory Deduplication)技术实现透明的跨主机内存管理。

    • 内存池容量 100TB+
    • 访问延迟 <200ns
  • 网络功能虚拟化(NFV)

    将传统硬件网络设备(路由器、防火墙、负载均衡器)虚拟化为软件定义的网络功能。DPDK 与 SR-IOV 加速实现 100Gbps+ 的虚拟网络吞吐量,eBPF 提供可编程的数据平面。

    • 吞吐量 100Gbps+
    • 延迟 <5μs
  • 量子虚拟机

    在经典硬件上模拟量子计算环境的虚拟化层。量子虚拟机支持量子门电路的精确模拟(最多 40+ 量子比特)与噪声模型注入,为量子算法开发与调试提供无需真实量子硬件的开发环境。

    • 模拟量子比特 40+
    • 门保真度 99.9%

Architecture

全栈虚拟化系统架构

全栈虚拟化系统架构

从硬件抽象到统一编排的六层核心架构——硬件直通层提供裸机级设备访问,虚拟机监控器层实现强隔离的资源切分,容器运行时层提供轻量级应用封装,GPU/QPU 虚拟化层共享加速器资源,网络虚拟化层构建可编程数据平面,统一编排层协调跨层资源调度。

  • 硬件直通层

    IOMMU 与 SR-IOV 将物理设备直接分配给虚拟机,消除虚拟化层性能开销,网络与存储 I/O 延迟与裸机持平(< 1% 开销)

  • 虚拟机监控器(VMM)

    Type-1 裸金属虚拟化层实现强隔离的 CPU/内存/设备资源切分,二级地址翻译(SLAT)优化内存虚拟化性能,微秒级热迁移保障业务连续性

  • 容器运行时

    Linux 命名空间 + cgroups v2 提供轻量级进程隔离,WebAssembly(WASM)沙箱实现跨平台应用封装,毫秒级启动与微秒级资源弹性伸缩

  • GPU/QPU 虚拟化层

    硬件级 GPU 切分(NVIDIA vGPU / SR-IOV)与量子虚拟机模拟器共享加速器资源,SM 级隔离保障多租户 AI 训练的性能与安全

  • 统一编排层

    Kubernetes 扩展框架统一编排 VM、容器、WASM 与量子任务,eBPF 可编程数据平面实现网络策略的运行时动态调整,支持百万级工作负载管理

Comparison

行业对照

传统方案与 Candies 方案的关键技术指标对比。

Candies 与传统方案关键技术指标对照
指标Candies传统方案
虚拟化粒度全栈粒度——VM / 容器 / WASM / 函数 / 量子任务,按需选择最合适的抽象层级整机虚拟化(VM),每个 VM 包含完整 OS,启动时间分钟级
I/O 性能SR-IOV 硬件直通 + DPDK 用户态网络栈,I/O 开销 < 1%虚拟设备模拟层引入 10-30% I/O 性能开销
GPU 共享SM 级硬件切分(vGPU/MxGPU),内存分区隔离,利用率提升至 95%时间片轮转共享,上下文切换开销大,多租户隔离弱
热迁移后拷贝(Post-copy) + RDMA 加速,微秒级中断,业务无感知预拷贝(Pre-copy)迁移,大内存 VM 中断时间达秒级
编排规模统一编排框架管理百万级工作负载,跨云/边缘/量子资源自动调度单集群数千节点,跨域编排需人工干预

Roadmap

研发里程碑

从实验室验证到商用集群部署的完整研发路线图。

  1. 开源发布已完成

    Xen 开源虚拟化平台发布

    剑桥大学发布 Xen 虚拟机监控器,首次实现 x86 架构上的准虚拟化(Paravirtualization),开创了现代服务器虚拟化的先河,后被 Citrix 收购并成为 AWS Nitro 的技术基础之一。

  2. 行业标准化已完成

    Kubernetes 容器编排成为行业标准

    Google 开源的 Kubernetes 项目在 2014 年发布,2018 年成为 CNCF 毕业项目,确立了容器编排的行业标准地位。Kubernetes 生态系统已扩展至覆盖网络、存储、安全与 AI 工作负载管理。

  3. 标准集成进行中

    CXL 内存池化虚拟化支持

    CXL 3.0 内存池化标准与虚拟机监控器深度集成,实现跨主机内存的透明虚拟化管理。虚拟机可在不迁移的情况下访问远端内存池,数据中心内存利用率提升至 80% 以上。

  4. 商用部署规划中

    量子虚拟机商用平台

    量子虚拟机平台实现 40+ 量子比特的精确模拟与噪声模型注入,与经典 Kubernetes 编排框架集成,开发者可在统一平台上混合编排经典计算与量子计算任务。

Scenarios

应用场景

从数据中心到深空探测的典型应用案例。

云计算

  • 多租户 GPU 云平台

    多租户 GPU 云

    vGPU 硬件切分使多个租户共享同一物理 GPU,AI 训练与推理工作负载的 GPU 利用率从 40% 提升至 95%,降低 AI 算力成本 60%

  • Serverless 函数计算平台

    Serverless 函数计算

    WASM 沙箱实现微秒级冷启动的函数计算,比容器快 100 倍,支持百万级并发函数实例的自动伸缩

  • 跨云统一管理平台

    跨云统一管理

    统一编排框架管理 AWS/Azure/GCP 多云资源,工作负载根据成本、延迟与合规性自动选择最优部署位置

边缘计算

  • 工业 IoT 边缘节点

    工业 IoT 边缘节点

    轻量级容器运行时在 ARM 边缘设备上实现毫秒级启动的 AI 推理与数据预处理,减少 90% 的上行带宽消耗

  • 自动驾驶车载虚拟化

    自动驾驶车载计算

    硬件直通 + 实时虚拟化在车载 SoC 上安全隔离传感器融合、路径规划与车载娱乐系统,满足 ASIL-D 功能安全等级

量子计算开发

  • 量子算法调试环境

    量子算法调试

    量子虚拟机在经典硬件上精确模拟量子电路,支持断点调试与状态检查,量子算法开发无需等待真实量子硬件可用

  • 混合量子-经典任务编排

    混合量子-经典任务编排

    统一编排框架将量子任务与经典计算任务混合调度,根据问题特征自动选择量子或经典执行路径

Case studies

案例研究

从实验室到工程落地、从研发到产业的真实案例前后对比。

  • AWS Nitro 虚拟化平台

    公有云

    AWS Nitro 虚拟化平台

    AWS Nitro 系统将虚拟化开销卸载到专用 Nitro 芯片,实现了接近裸机的 EC2 实例性能。Nitro Hypervisor 占用宿主 CPU 不到 1%,网络与存储 I/O 通过 SR-IOV 直通实现零虚拟化损耗。

    之前
    传统虚拟化平台 I/O 开销 10-30%,CPU 虚拟化开销 3-5%
    之后
    Nitro 实现 < 1% CPU 开销,网络/存储 I/O 接近裸机
    • <1% CPU 开销
    • 裸机级 I/O 性能
  • NVIDIA MIG GPU 虚拟化

    AI 计算

    NVIDIA A100 MIG 多实例 GPU

    NVIDIA A100 GPU 的 MIG(Multi-Instance GPU)技术将单个物理 GPU 切分为最多 7 个独立 GPU 实例,每个实例拥有独立的 SM、L2 缓存与内存带宽,实现硬件级的多租户隔离。

    之前
    GPU 时间片共享导致多租户干扰,利用率仅 40%
    之后
    MIG 硬件切分实现 7 个独立实例,GPU 利用率提升至 95%
    • 7 实例数
    • 95% 利用率
  • Firecracker 微虚拟机

    Serverless

    Firecracker 微虚拟机

    AWS Firecracker 是专为 Serverless 与容器工作负载设计的轻量级虚拟机监控器,基于 KVM 实现毫秒级启动与 5MB 内存占用,支撑 AWS Lambda 的数十亿次函数调用。

    之前
    传统 VM 启动时间秒级、内存占用 GB 级,不适合 Serverless
    之后
    Firecracker 125ms 启动、5MB 内存占用,支撑数十亿 Lambda 调用
    • 125ms 启动时间
    • 5MB 内存占用

Virtualization

全维度虚拟化技术

分子级容器、量子态隔离、脑机信号虚拟化、维度计算空间、现实抽象层与时间切片六大资源抽象方案。

  • SR-IOV 硬件直通架构

    硬件直通与 SR-IOV

    通过 IOMMU 实现物理设备直接分配给虚拟机,SR-IOV 将单个物理网卡/ GPU 虚拟为多个独立虚拟功能(VF)。每个 VM 独占一个 VF,I/O 性能与裸机持平,虚拟化开销 < 1%。AWS Nitro 与 DPDK 用户态网络栈是典型实现。

  • 容器与 WASM 运行时对比

    容器与 WebAssembly 运行时

    Linux 容器(基于命名空间 + cgroups)提供进程级隔离与毫秒级启动。WebAssembly(WASM)沙箱进一步将冷启动降至微秒级,且语言无关、平台无关。WASI(WebAssembly System Interface)标准化使 WASM 成为超越容器的下一代应用封装格式。

  • GPU 虚拟化技术架构

    GPU 虚拟化技术

    NVIDIA vGPU、AMD MxGPU 与 Intel GVT-g 提供硬件级 GPU 资源切分。MIG(Multi-Instance GPU)技术将单个 GPU 切分为最多 7 个独立实例,SM 级隔离保障多租户 AI 训练的性能与安全。GPU 利用率从 40% 提升至 95%。

  • CXL 内存池化架构

    CXL 内存池化虚拟化

    CXL 3.0 打破了'一台服务器固定一块内存'的传统架构。多台服务器通过 CXL 交换机共享统一内存池(100TB+),虚拟机监控器实现跨主机内存的透明管理与动态分配,数据中心内存利用率从 50% 提升至 80%。

  • 量子虚拟机模拟环境

    量子虚拟机

    在经典硬件上模拟量子计算环境的虚拟化层。支持量子门电路的精确模拟(40+ 量子比特)与真实噪声模型注入,提供 QASM/QIR 等量子指令集的解释执行。量子虚拟机使量子算法开发无需等待真实量子硬件,是量子计算生态的关键基础设施。

FAQ

常见问题

通用

本网站内容均为杜撰,如有雷同,不甚荣幸。
本中文文档采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。