中断虚拟化设计文档 #36

luodeb · 2024-10-18T03:45:47Z

luodeb
Oct 18, 2024
Collaborator

一、GICv2介绍

通过上图可以确定，GIC 主要包含 3 部分：Distributor、CPU interfaces 和 Virtual CPU interfaces。Virtual CPU interfaces 包含 Virtual interface control 和 Virtual CPU interface。

中断进入 distributor，然后分发到 CPU interface
某个 CPU 触发中断后，读 GICC_IAR 拿到中断信息，处理完后写 GICC_EOIR 和 GICC_DIR（如果 GICC_CTLR.EOImodeNS 是 0，则 EOI 的同时也会 DI）
GICD、GICC 寄存器都是 MMIO 的，device tree 中会给出物理地址

中断类型

1. 软件生成中断（Software Generated Interrupts, SGI）
- 中断号范围：0 到 15（共 16 个中断号）
- 用途：用于处理器间通信（IPI），允许一个处理器核心向另一个处理器核心发送中断信号。
- 特点：每个核心都可以生成和接收这些中断，通常用于任务调度、同步等操作。
2. 私有外设中断（Private Peripheral Interrupts, PPI）
- 中断号范围：16 到 31（共 16 个中断号）
- 用途：用于处理与特定处理器核心直接相关的硬件事件，例如计时器中断、性能监控中断、调试中断等。
- 特点：这些中断是每个核心私有的，只有对应的核心会处理这些中断。
3. 共享外设中断（Shared Peripheral Interrupts, SPI）
- 中断号范围：32 到 1019（共 988 个中断号）
- 用途：用于处理系统中共享的外设中断，例如来自外部设备、网络接口、存储设备等的中断。
- 特点：这些中断是所有核心共享的，可以由任何一个核心处理，通常通过中断亲和性（affinity）来决定哪个核心处理该中断。
- SPI默认发送vcpu 0上，同样将中断信号放到vcpu的ap_list字段排队，等待vcpu处理。

Distributor 作用

Distributor 主要作用为检测中断源、控制中断源行为和将中断源分发到指定 CPU 接口上（针对每个 CPU 将优先级最高的中断转发到该接口上）。

Distributor 对中断的控制包括：

全局启用中断转发到 CPU 接口
开启或关闭每一个中断
为每个中断设置优先级
为每个中断设置目标处理器列表
设置每个外设中断触发方式（电平触发、边缘触发）
为每个中断设置组
将 SGI 转发到一个或多个处理器
每个中断状态可见
提供软件设置或清除外设中断的挂起状态的一种机制

中断 ID

使用 ID 对中断源进行标识。每个 CPU 接口最多可以有 1020 个中断。SPI 和 PPI 中断为每个接口特定的，SPI 为为所有接口共用，因此多处理器系统中实际中断数大于 1020 个。

CPU Interface

CPU 接口提供一个处理器连接到 GIC 的接口。每一个 CPU 接口都提供一个编程接口：

允许向处理器发送中断请求信号
确认中断
指示中断处理完成
为处理器设置中断优先级掩码
为处理器定义抢占策略
选择最高优先级挂起中断

二、中断处理状态机

GIC 为每个 CPU 接口上每个受支持的中断维护一个状态机。下图显示了此状态机的实例，以及可能的状态转换。

Inactive：该中断源处于未激活状态
Pending：中断源触发状态，GIC感知到，但还未被分发到PE
Active：中断已经被某个PE认领确认
Active and pending：这个中断源的一次触发已经被PE确认，同时这个中断源的另一次触发正在pending状态

添加挂起状态（A1、A2）

对于一个 SGI，发生以下 2 种情况的 1 种：
- 软件写 GICD_SGIR 寄存器，指定目标处理器
- 目标处理器上软件写 GICD_SPENDSGIRn 寄存器
对于一个 SPI 或 PPI，发生以下 2 种情况的 1 种：
- 外设发出一个中断请求信号
- 软件写 GICD_ISPENDRn 寄存器

删除挂起状态（B1、B2）

对于 SGI
- 目标处理器写 GICD_CPENDSGIRn 寄存器
对于一个 SPI 或 PPI，发生以下 2 种情况的 1 种：
- 电平触发类型中断，信号取消
- 边沿触发类型中断，软件写 GICD_ICPENDRn 寄存器

挂起到激活（C）

如果中断使能，并且高优先级，软件从 GICC_IAR 寄存器读取时发生状态改变。

挂起到激活和挂起（D）

对于 SGI，这种转变发生在以下任一情况下：
- 将 SGI 状态设置为挂起的写入操作与读取 GICC_IAR 几乎同时发生
- 当多个挂起的 SGI 具有相同 ID 时，并且它们来自同一个源处理器并指向同一个处理器。其中一个 SGI 状态变为激活（C），其他 SGI 状态变为激活和挂起（D）
对于 SPI 或 PPI，满足以下所有条件，则发生这种转换
- 中断开启
- 软件读取 GICC_IAR，读操作将激活状态添加到中断中。
- 此外，还应满足以下条件之一：
  - 对于电平触发中断，中断信号保持。通常都是这样，因为外设直到处理器处理完中断后才会取消触发信号。
  - 对于边沿触发中断，是否发生此转换取决于读取 GICC_IAR 的时间（中断再次触发，上一次未处理），读取 GICC_IAR 可能会转换到 C，后面可能会转换到 A2。

删除激活状态（E1、E2）

软件写入 GICC_EOIR 或 GICC_DIR 来停用中断，

三、中断虚拟化设计

中断虚拟化概要

HCR_EL2.IMO 设置为 1 后，所有 IRQ 都会 trap 到 Hypervisor
Hypervisor 判断该 IRQ 是否需要插入到 vCPU
插入 vIRQ 之后，在切换到 VM 之前需要 EOI 物理 IRQ，即 priority drop，降低运行优先级，使之后 VM 运行时能够再次触发该中断
回到 VM 后，GIC 在 EL1 触发 vIRQ，这时候 EOI 和 DI 会把 vIRQ 和物理 IRQ 都 deactivate，因此不需要再 trap 到 Hypervisor ，不过如果是 SGI 的话并不会 deactivate，需要 Hypervisor 自己处理。

Hypervisor interface (GICH)

GICH base 物理地址在 device tree 中给出
控制寄存器：GICH_HCR、GICH_VMCR 等
List 寄存器：GICH_LRn
KVM 中，这些寄存器保存在 struct vgic_cpu 的 vgic_v2 字段，struct vgic_cpu 本身放在 struct kvm_vcpu_arch，每个 vCPU 一份
vCPU switch 的时候，需要切换这些寄存器（KVM 在 vgic-v2-switch.S 中定义相关切换函数）
VM 无法访问 GICH 寄存器，因为根本没有映射

vCPU interface (GICV, GICC in VM's view)

GICV 也是物理 GIC 上存在的，base 物理地址同样在 device tree 中给出
KVM 在系统全局的一个结构体（struct vgic_params vgic_v2_params）保存了这个物理地址
创建 VM 时 Hypervisor 把一个特定的 GPA（KVM 中通过 ioctl 设置该地址）映射到 GICV base 物理地址，然后把这个 GPA 作为 GICC base 在 device tree 中传给 VM
VM 以为自己在访问 GICC，实际上它在访问 GICV
目前理解这些 GICV 寄存器在 vCPU switch 的时候是不需要保存的（KVM 里没有保存 GICV 相关的代码），因为它其实在硬件里访问的是 GICH 配置的那些寄存器，比如 LR

Virtual distributor (GICD in VM's view)

实际是内核里的一个结构体（struct vgic_dist）
在 device tree 中给 VM 一个 GICD base，但实际上没有映射
VM 访问 GICD 时，trap & emulate，直接返回或设置 struct vgic_dist 里的字段（在 vgic-v2-emul.c 文件中）
每个 VM 一个，而不是每个 vCPU 一个，所以 struct vgic_dist 放在 struct kvm_arch 里

VM's view

从 device tree 获得 GICD、GICC base 物理地址（实际是 Hypervisor 伪造的地址）
配置 GICD 寄存器（实际上 trap 到 Hypervisor ，模拟地读写了内核某 struct 里的数据）
执行直到发生中断（中断先到 Hypervisor ，Hypervisor 在 LR 中配置了一个物理 IRQ 到 vIRQ 的映射，并且设置为 pending，回到 VM 之后 GIC 在 VM 的 EL1 触发中断）
读 GICC_IAR（经过 stage 2 页表翻译，实际上读了 GICV_IAR，GIC 根据 LR 返回 vIRQ 的信息，vIRQ 状态从 pending 转为 active）
写 GICC_EOIR、GICC_DIR（经过 stage 2 页表翻译，实际上写了 GICV_EOIR、GICV_DIR，GIC EOI 并 deactivate 对应的 vIRQ，并 deactivate vIRQ 对应的物理 IRQ）

VGIC设计

主要以以下4中case进行讨论，其中case4涉及vCPU调度，其他情况不涉及调度：

VGIC Distributor设计

struct VgicDist {
    ...
    nr_spis: usize,           // num of SPIs
    spis: Vec<VgicIrq>,       // store SPI
    dist_iodev: VgicIoDevice, // Distributor I/O设备描述符
    ....
}

impl VgicDist {
    pub fn new() {
        let nr_spis = 256; 
        let mut spis = Vec::new(); 

        // init SPI interrupt
        for _ in 0..nr_spis {
            spis.push(VgicIrq {
                ap_list: RefCell::new(LinkedList::new()),
                vcpu: Some(Box::new(Vcpu {})),
                target_vcpu: Some(Box::new(Vcpu {})),
                intid: 0,
                line_level: false,
                active: false,
                enabled: true,
            });
        }

        let dist_iodev = VgicIoDevice {  };
        VgicDist {
            nr_spis,
            spis,
            dist_iodev,
        }
    }
}

VGIC Distributor 主要模拟 nr_spis 个 spis 中断

struct VgicIrq {
    /// A linked list header for managing interrupts.
    /// This is used for managing the list of interrupts associated with a VCPU.
    ap_list: RefCell<LinkedList<Box<VgicIrq>>>,
    
    /// For SGIs and PPIs: The VCPU that generated the interrupt.
    /// For SPIs: The VCPU whose `ap_list` this is queued on.
    vcpu: Option<Box<dyn VcpuTrait>>,
    
    /// The VCPU that this interrupt should be sent to, based on the targets register (v2)
    target_vcpu: Option<Box<dyn VcpuTrait>>,
    
    /// The guest-visible interrupt ID.
    intid: u32,
    
    /// Indicates if the interrupt is level-triggered only.
    line_level: bool,
    
    /// Not used for LPIs.
    active: bool,
    
    /// Indicates if the interrupt is enabled.
    enabled: bool,
}

GIC所以只处理SPI类型的中断，原因是其它两类中断的输入就是针对特定一个CPU的，不需要Distributor控制其中断信号的deliver行为；而SPI的目标CPU，是可以用户配置的，因此需要模拟一个Distributor来控制中断deliver的目标，并将Distributor的控制接口暴露给用户。
target_vcpu结构用来存放用户设置的GIC中断路由信息，如果用户没有设置，那target_vcpu就使用默认的CPU0，后续GIC可能会根据负载均衡策略将中断分发到其它目标CPU上。换句话说，target_vcpu可能不是中断最终投递的CPU，只是一个初始值，而vcpu才是中断最终投递的CPU

VGIC初始化

vgicd-ctrl 寄存器：

- 对于case 1、2 和 3，不需要 IPI 通信。case 4 需要 IPI 通信。

vgicd-iid 寄存器，vgicd-type 寄存器：

- 这些寄存器保存 GIC 的一些属性和处理元素（PE）的数量。

- 虚拟化提供的 vgicd 应根据 VPE 的数量进行配置。

vgicd-isenable 寄存器：

- getenable：直接从结构中读取内容。

- setenable：根据 vtop 和 ptov 设置配置 GIC。对于情况 1、2 和 3，不需要 IPI 通信。情况 4 需要 IPI 通信。

其他 emu 寄存器：

- 其他 vgicd-emu 寄存器与 isenabler 类似。

多架构下的GIC路由，vint实现配置

在arm下，用户通过配置分发器的vgic_irq，就可以控制每个引脚的中断信息deliver到哪个CPU。考虑到需要兼容x86和riscv架构，需要设计一个通用的路由表vint_irq_routing_table。

vint_irq_routing_table

TODO：

vint_set_routing_entry(vm, entries, nr, ue)

vgic_irqfd_set_irq -> vint_vgic_inject_irq

中断响应回调，直接调用vgic_irqfd_set_irq将中断注入到指定的vCPU中。

SGI软件生成中断

SGI是一种特殊的中断，由软件生成，通常用于在多核系统中实现CPU间通信。SGI的目标CPU由发送者指定，并且SGI可以被路由到一个或多个核上。

在虚拟化环境下，由于多个vCPU可能共享同一个物理CPU，hypervisor需要对SGI进行虚拟化，以确保VM之间的隔离性和透明性。

Hypervisor对SGI的拦截

在虚拟化环境中，当VM试图发送SGI时，通常通过修改guest的GIC相关寄存器来触发。VM本身无法直接访问物理的GIC Distributor（GICD）寄存器，因此这些写操作会被hypervisor拦截。

vCPU到vCPU的SGI：VM发送SGI给自己的vCPU或同一个VM中的其他vCPU。

SGI的处理与路由

在SGI虚拟化中，hypervisor负责以下操作：

拦截和解析SGI：当VM写入GICD_SGIR寄存器（用于触发SGI），hypervisor会拦截该写操作。它解析出目标vCPU以及SGI的ID。
SGI的重定向：hypervisor根据解析出的SGI信息，将SGI重新路由到目标vCPU，这里应该有有一个接口能够根据vcpu_id注入指定的中断。
- vCPU活跃：直接发送到指定的vCPU
- vCPU休眠：唤醒vCPU后，再发送到指定vCPU
中断优先级和状态管理：hypervisor需要维护虚拟中断的优先级和状态（如等待、激活等），以确保VM感知到的中断行为与物理硬件一致。

虚拟GIC的支持

为了让VM能够像使用物理GIC一样处理中断，hypervisor会提供虚拟的GIC接口（vGIC）。vGIC负责模拟GICD和GICC（CPU接口）的寄存器操作，并将这些寄存器映射到VM的地址空间。

虚拟GIC支持VM的SGI管理，包括：

虚拟GICD_SGIR寄存器：VM通过这个寄存器触发SGI，hypervisor在接收到写操作后进行中断重定向。
虚拟中断路由表：hypervisor维护一个虚拟的中断路由表List Registers，用来追踪SGI应该被路由到哪个vCPU。

PPI 私有外设中断

PPI通常用于管理特定于处理器的外设中断。在GICv2中，每个核心都有其专属的PPI，通常包括定时器中断和其他本地外设中断。在虚拟化环境中，hypervisor需要虚拟化这些中断，以便每个VM能够透明地访问和使用它们。

VM发起PPI请求

当VM中的vCPU需要处理PPI时，通常是通过对GIC的寄存器进行操作。例如，vCPU可能会读取或清除某个PPI的状态，这一操作需要经过hypervisor的拦截。

Hypervisor拦截请求

拦截操作：Hypervisor监测对PPI相关寄存器的访问请求，特别是GIC的PPI寄存器。
解析请求：Hypervisor解析该请求以确定哪个vCPU或VM正在进行操作，并根据需要处理这些请求。

PPI的路由和分发

管理PPI状态：Hypervisor需要维护每个VM的PPI状态，确保在VM运行时，PPI的状态能够正确反映在对应的vCPU上。
中断注入：当PPI中断发生时，hypervisor负责将中断注入到对应的vCPU中。对于PPI，hypervisor可以直接向目标vCPU发送中断请求，而不需要重定向。

目标vCPU处理中断

vCPU处理PPI：一旦PPI被触发，目标vCPU会进入中断处理程序，执行相应的处理逻辑。
状态恢复：处理完成后，vCPU会清除PPI中断状态，并恢复执行状态。

Hypervisor的清理工作

状态管理：Hypervisor在处理完PPI中断后，负责清理中断状态和相关的寄存器，确保后续中断请求的正确性。

SPI 共享外设中断

在虚拟化环境中，SPI（Shared Peripheral Interrupt，共享外设中断）是一种用于处理多个处理器核心共享外设的中断。与SGI和PPI不同，SPI是针对共享设备的中断，允许多个CPU响应同一外设生成的中断。hypervisor在虚拟化SPI时需要确保VM之间的隔离，同时提供对共享外设的正确中断管理。

SPI通常用于系统中那些可以被多个处理器访问的外设，例如网络适配器、存储控制器等。在GICv2中，SPI由GIC的Distributor（GICD）管理，允许多个处理器核接收来自同一外设的中断。在虚拟化环境中，hypervisor需要将SPI虚拟化为适合多个VM使用的形式。

VM发起SPI请求

当外设生成中断时，它将通过物理GIC将SPI传递给相应的处理器核心。在虚拟化环境中，物理中断首先会传递到hypervisor。

Hypervisor的拦截和管理

拦截中断：Hypervisor拦截来自外设的SPI请求，并识别该中断的目标VM（如果已映射）。
中断映射：Hypervisor维护一个中断映射表，将物理中断与VM中的虚拟中断进行关联。

SPI的路由和重定向

目标VM识别：Hypervisor通过中断映射表确定SPI应该路由到哪个VM的vCPU。
中断注入：Hypervisor将SPI注入到目标VM的对应vCPU中，以触发中断处理。

目标vCPU处理中断

处理SPI中断：目标vCPU接收到中断请求后，执行相应的中断处理程序。此过程包括保存上下文、执行处理逻辑以及清除中断状态。
状态恢复：处理完成后，vCPU需要恢复到正常执行状态，并清除中断标志。

Hypervisor的清理工作

状态更新：Hypervisor在处理完SPI中断后，更新中断的状态，以反映当前的处理中断情况。

List Register

对于有虚拟化扩展的 GIC，Hypervisor使用 List Registers 来维护高优先级虚拟中断的一些上下文信息。

struct gich_lr {
    uint32_t vid : 10;  // virq 中断号
    uint32_t pid : 10;  // 此 field 根据 hw 值不同而不同
                        // hw=1，表示此虚拟中断关联了一个物理中断，此 pid 为实际的 physical irq 中断号
                        // hw=0，bit19表示是否 signal eoi，给 maintenance interrupt 使用，不做讨论
                                 //bit12-10，如果这是一个 sgi 中断，即 virtual interrupt id < 15，那么此位域表示 requesting cpu id

    uint32_t resv : 3;  // 保留
    uint32_t pr : 5;    // 该virtual integrrupt 的优先级
    uint32_t state : 2; // 指示该中断的状态，invalid、pending、active、pending and active
    uint32_t grp1 : 1;  // 表示该 virtual integrrupt 是否是 group 1 virtual integrrupt
                        // 0 表示这是一个 group 0 virtual interrupt，表示安全虚拟中断，可配置是按照 virq 还是 vfiq 发送给 vcpu
                        // 1 表示这是一个 group 1 virtual interrupt，表示非安全虚拟中断，该中断以 virq 的形式触发，而不是 vfiq

    uint32_t hw : 1;    // 该虚拟中断是否关联了一个硬件物理中断
                        // 0 表示否，这是 triggered in software，当 deactivated 的时候不会通知 distributor
                        // 1 表示是，那么 deactivate 这个虚拟中断也会向对应的物理中断也执行 deactivate 操作
                        // 而具体的 deactivate 操作，如果 gicv_ctlr.eoimode=0，写 gicv_eoir 寄存器表示 drop priority 和 deactive 操作同时进行 
                        // 如果 gicv_ctlr.eoimode=1，写 gicv_eoir 寄存器表示 drop priority，写 GICV_DIR 表示 deactive
};

KVM关于VGIC的设计

kvm_vm_ioctl
	kvm_vm_ioctl_irq_line
	    irq_type = (irq >> KVM_ARM_IRQ_TYPE_SHIFT) & KVM_ARM_IRQ_TYPE_MASK;	/* SPI 类型 */
    	vcpu_idx = (irq >> KVM_ARM_IRQ_VCPU_SHIFT) & KVM_ARM_IRQ_VCPU_MASK;	/* vcpu_idx: 0*/
    	irq_num = (irq >> KVM_ARM_IRQ_NUM_SHIFT) & KVM_ARM_IRQ_NUM_MASK;		/* 中断号：32+7 = 39 */
    	
   	case KVM_ARM_IRQ_TYPE_CPU:	/* 发往特定CPU上的快速中断 */
        if (irqchip_in_kernel(kvm))
            return -ENXIO;

        if (vcpu_idx >= nrcpus)
            return -EINVAL;

        vcpu = kvm_get_vcpu(kvm, vcpu_idx);	/* 根据cpuid取出vcpu结构体*/
        if (!vcpu)
            return -EINVAL;

        if (irq_num > KVM_ARM_IRQ_CPU_FIQ)
            return -EINVAL;
		/* 立即投递到cpu的中断状态字段，然后kick cpu进行处理
		 * 由于是快速中断，KVM直接更新的irq_lines字段，没有将中断信号放到vgic_cpu的ap_list上排队
		 */
        return vcpu_interrupt_line(vcpu, irq_num, level);		
    case KVM_ARM_IRQ_TYPE_PPI:	/* CPU私有类型的中断 */
        if (!irqchip_in_kernel(kvm))
            return -ENXIO;

        if (vcpu_idx >= nrcpus)
            return -EINVAL;

        vcpu = kvm_get_vcpu(kvm, vcpu_idx);	/* 根据cpuid取出vcpu结构体 */
        if (!vcpu)
            return -EINVAL;

        if (irq_num < VGIC_NR_SGIS || irq_num >= VGIC_NR_PRIVATE_IRQS)
            return -EINVAL;
		/* 非快速中断，取出目的vcpu后，将中断信号放到vcpu的ap_list字段排队，等待vcpu处理 */
        return kvm_vgic_inject_irq(kvm, vcpu->vcpu_id, irq_num, level, NULL);	
    case KVM_ARM_IRQ_TYPE_SPI:
        if (!irqchip_in_kernel(kvm))
            return -ENXIO;

        if (irq_num < VGIC_NR_PRIVATE_IRQS)
            return -EINVAL;
		/* 非快速中断，SPI默认发送vcpu 0上，同样将中断信号放到vcpu的ap_list字段排队，等待vcpu处理 */
        return kvm_vgic_inject_irq(kvm, 0, irq_num, level, NULL);
    }

PeizhongQiu · 2024-10-21T09:11:51Z

PeizhongQiu
Oct 21, 2024
Maintainer

timer 接口与定义

data structure

pub struct VmmTimerEvent {
    // task：注册 timerirq 的 task
    task: CurrentTask,
    // 当时钟到期时，触发的回调函数
    timer_callback: Box<dyn FnOnce(TimeValue) + Send + 'static>,
}

#[percpu::def_percpu]
static TIMER_LIST: LazyInit<SpinNoIrq<TimerList<VmmTimerEvent>>> = LazyInit::new();

TimerList：一个小根堆，用于维护多个定时器及其回调函数。

TimerList 相关接口

TIMER_LIST.set(deadline: u64, handler: TimerEventFn)来设置一个到期时间为deadline的事件，其回调函数为handler

TIMER_LIST.expire_one(now: TimeValue)来获得时间最值最小的过期事件，若没有则返回None

一次处理多个到期事件？

while let ev = list.expire_one(now) {
	ev.callback()
	...
}

timer 相关接口

// deadline: ns，需要在各架构的 vcpu 实现中转成统一单位
// 注册一个时钟中断到 TIMER_LIST 中
pub fn register_timer(deadline: u64, handler: VmmTimerEvent) {
    let timer_list = unsafe { TIMER_LIST.current_ref_mut_raw() };
    let mut timers = timer_list.lock();
    timers.set(TimeValue::from_nanos(deadline as u64), handler);
}

// 将 TIMER_LIST 中所有满足条件的中断全部删除
pub fn cancel_timer<F>(condition: F)
where
    F: Fn(&VmmTimerEvent) -> bool, {
    let timer_list = unsafe { TIMER_LIST.current_ref_mut_raw() };
    let mut timers = timer_list.lock();
    timers.cancel(condition);
}

// 触发 TIMER_LIST 中全部到期的时钟中断
pub fn check_events() {
    loop {
        let now = axhal::time::wall_time();
        let timer_list = unsafe { TIMER_LIST.current_ref_mut_raw() };
        let event = timer_list.lock().expire_one(now);
        if let Some((_deadline, event)) = event {
            // 处理时间中断
            ......
        } else {
            break;
        }
    }
}

// 设置下一次时钟中断到期的时间
pub fn scheduler_next_event() {
    // info!("set deadline!!!");
    let now_ns = axhal::time::monotonic_time_nanos();
    let deadline = now_ns + PERIODIC_INTERVAL_NANOS;
    axhal::time::set_oneshot_timer(deadline);
}

// 初始化时钟中断，需要重新注册 arceos 时钟中断
pub fn init() {
    let timer_list = unsafe { TIMER_LIST.current_ref_mut_raw() };
    timer_list.init_once(SpinNoIrq::new(TimerList::new()));

    axhal::irq::register_handler(axhal::time::TIMER_IRQ_NUM, || {
        check_events();
        scheduler_next_event();
    });
}

situation

case1

timer到期时，vcpu未运行（可能与timer_list在同一核也可能在不同核）。

调用 callback 处理。

case2

timer到期时，vcpu 和timer_list在同一核。

调用 callback 处理。

case3

timer到期时，vcpu正在运行，和timer_list在不同核。

当vcpu在hart0上运行时设置了定时器，然后vcpu被调度到hart1上执行，此时hart0上的定时器到期，该如何通知hart1上正在运行的vcpu中断到来并退出虚拟机？

hart0处理时钟事件时发现vcpu不在自己这后，查找得知vcpu在hart1上后，向hart1发送ipi，并将 callback 作为参数附带过去，hart1收到 ipi 后另作处理（需要在软件中断里增加复杂逻辑，但会让中断及时一些）

case4

arceos时钟中断。（调度）

timer 处理的全流程

在进入虚拟机前：重新注册 timer 中断处理流程
在进入虚拟机后：
- SetTimer 处理流程：
  - 返回 SetTimer { time, callback} 信息到 arceos-umhv
  - 注册到 TIMER_LIST 中（register_timer）
- TimerIrq 处理流程：
  - 返回 TimerIrq 到 arceos-umhv
  - 处理 TIMER_LIST 中每个到期的时钟中断，如何处理？（inject_irq）
    - 判断 vcpu 是否正在运行：
      - 判断方法：在 vcpu 中增加一个变量 cpuid，表示正在运行的 cpu 的 id，vcpu 的 state 判断是否运行；
      - 处于非运行状态：调用 callback 函数，或者还可能是 arceos，同样直接调用 callback即可；
      - 处于运行状态：
        
        如果是当前核，则调用 callback 函数；
        
        如果不是当前核，则发送 IPI 给该核，附带参数：callback, vcpuid 等
当该核收到 IPI 时：
- 该核正在运行虚拟机：收到 IPI 后，会退出虚拟机，对 IPI 进行处理
- 该核不在运行虚拟机，收到 IPI 后，触发 IPI 的中断处理函数
- 处理方法：判断 vcpu 是否正在运行（处理方法同上），因为在收到 IPI 之前，vcpu 可能被调度到别的核上运行，或者不运行（inject_irq）

其他 timer 中断处理的接口

arch_vcpu

增加 SetTimer / TimerIrq 的处理，最后返回 Ok(AxVCpuExitReason::TimerIrq) / Ok(AxVCpuExitReason::SetTimer { time, callback});
增加 IPI 处理，然后返回 Ok(AxVCpuExitReason::IPI)

axvcpu

AxVCpuExitReason 里增加：

  /// Register a timer
  /// Because vmm is needed to register clock interrupts.
  SetTimer { time: u64, callback: fn(TimeValue) },
  /// A clock interrupt occurs
  TimerIrq,
  /// ipi
  IPI,

vcpu 增加接口

// 获取vcpu 正在运行的 cpu 的 id
pub fn get_cpu_id(self) -> i32;

umhv

添加 timers.rs 用来处理 timer 相关接口（见上）

添加 IPI 处理接口

// vcpu 是目标 vcpu，irq 是 TimerIrq
pub fn inject_irq(vcpu, callback, irq) {
    let to = vcpu.get_cpu_id();
    if to < 0 || to == this_cpu_id() {
	callback();
    } else {
        // 给 to 发送附带参数的 IPI
	send_ipi(to, vcpu, callback, irq);
    }
}

2 replies

luodeb Oct 23, 2024
Collaborator Author

当timer到期时，vcpu未运行，这个时候如果其他guest正在处理timer中断(active到panding中间)，直接callback貌似不太合理吧？

PeizhongQiu Oct 23, 2024
Maintainer

callback 就是为了当timer到期时，vcpu未运行这种情况设计的。我的想法是第一，即便这个 vcpu 正在这个核运行，但是后面处理 timerlist 可能会触发调度导致 vcpu 变成不可运行的状态，所以这种情况和当timer到期时，vcpu未运行算作一种处理，就是 callback。第二，timer 中断放到 umhv 处理，此时之前在运行 vcpu 的状态应该不是运行状态了。所以理论上来说case 2是不存在的，所以 callback 就是为了当timer到期时，vcpu未运行这种情况设计的。

luodeb · 2024-10-23T06:32:08Z

luodeb
Oct 23, 2024
Collaborator Author

ARM 定时器中断

通用定时器(Generic Timer)

通用计时器为ARM的处理器核提供了一个标准化的计时器框架。通用计时器包含一个系统计数器（System Counter）和每个处理器核自己的计时器（per-core timer），如下图。图中的PE（Processor Element）代表处理器核。

系统计数器需要保证在芯片上电启动后一直保持工作，且以固定的时钟频率单调递增计数。系统计数器的数值需要广播给所有的处理器。在多核处理器架构中，即使某些处理器核出于某些原因（节省功耗，生成故障等等）关闭电源，系统计数器仍能为处于工作状态的处理器核提供计数值。

ARM建议系统计数器是56-64bit宽度，工作频率在1-50MHz。我们以最小宽度56bit和最高速度50MHz来计算，计数器溢出需要大概 $$ \frac{2^{56}}{5010^{6}606024*365} $$ ，约为45年。此处只是给出大概的计算，具体的计数器设计要根据实际需求确定。

不知道大家看到这里发现没有，系统计数器只是单调的递增，并不能反映真实物理世界的时间（年，月，日，时，分，秒）。也就是说，SoC还需要板级提供一个RTC（Real-Time Clock），以供给真实时间。

每个处理器有一组计时器。这些计时器本质上是比较器，软件可以设置这些处理器本地计时器的数值，并且与系统计数器广播来的值作比较。当计满后，触发中断（Interrupt）或者事件（Event）。

ARMv8-A中的处理器计时器如下表：

在实际硬件设计中，如何实现这种跨时钟域的数据传输？

首先，系统计数器需要传输给处理器核，系统计数器工作在低频下（MHz），而处理器工作在高频下（GHz），如何在两个时钟频率下传输一组数值？这个问题可以通过二进制和格雷码转换来解决。系统计数器的数值转换成格雷码，以格雷码的形式在芯片中传播；在处理器端，先做跨时钟域采样，这样会保证采样不会采错，然后格雷码转换成二进制。

多核处理器芯片中如何保证时钟同步？

系统计数器的值要传播给所有的处理器。这时，需要一定的机制保证该值同一时刻（此处不是绝对意义的分毫不差）到达每个处理器端。否则的话，可能会引发错误。例如，假设两个处理器A核B，处理器A端的系统计数器值更新快于处理器B端。处理器A以接收到的系统计数器值为时间戳，发送一个消息给处理器B；处理器B接收到消息后，看到的本地系统计数值如果早于消息中的时间戳，那就肯定不对了（不能接收来自未来的消息吧）。我在ARM的文档中没有找到ARM有什么推荐方案，个人感觉可以通过格雷码打多拍的方式在整个SoC中传播。这样可以保证从系统计数器传播到每个处理器入口端的延时一样，至于每个处理器内部跨时钟域转换造成的偏差，可以认为是系统计数器时钟的抖动（jitter），忽略不计。

多芯片时钟同步

第三个问题，是多芯片间的同步问题。一个SMP可能由多个处理器芯片组成，每个处理器芯片有自己的系统计数器。但是SMP要求多芯片内的所有处理器时间保持一致（类似单芯片中的多核间需要一致）。ARM在其参考设计中提供了一个解决方案，使用两个芯片管脚SYNCREQ和SYNCACK实现一组握手协议。芯片间的同步通过这两个专用接口和CCIX消息来完成。

在以下情况下，通过CCIX将消息写入memory-mapped寄存器：

主设备向从设备发送未来的Tupdate时间值
从机使用接口重置主状态机的任何错误状态

每个PE实现的通用定时器组件

每个PE都包含两个定时器，一个是物理定时器(Physical Timer)，另一个是虚拟定时器(Virtual Timer)。

物理定时器(Physical Timer)

该物理定时器(Physical Timer)包含系统计数器(System Counter)的计数值，当实现了FEAT_ECV时，CNTPOFF_EL2寄存器保存了可选择设置的物理偏移量。

FEAT_ECV 是 ARM 架构中的一个扩展特性，其全称是 Extended Counter Value 或 Enhanced Counter Value。这个特性主要是为了解决在虚拟化环境中更灵活地管理定时器的问题。FEAT_ECV 的实现允许操作系统或其他虚拟化管理程序（如 hypervisor）更精细地控制物理定时器的行为，尤其是在涉及虚拟机（VM）的情况下。

虚拟定时器(Virtual Timer)

虚拟计数器等于物理计数器的值减去64 bits 的虚拟偏移量。CNTVOFF_EL2寄存器包含虚拟偏移量。CNTVCT_EL0寄存器保存着当前的虚拟计数器值。但是注意虚拟计数器和物理计数器一样，读取指令可以被乱序执行，需要使用内存屏障指令保证按序执行。

Timers

每个实现的定时器的输出：

向系统输出一个信号。
如果PE与通用中断控制器(GIC)连接，则PE会发送一个私有外设中断(PPI)到该GIC。在多处理器中，每个PE必须为每个定时器使用相同的中断号。

每一个定时器：

既可以作为一个 64 bits 的 CompareValue 来呈现，也可以作为 TimerValue 的形式呈现。不同点在于 CompareValue 是一个 64 位无符号的计数值，而 TimerValue 是一个 32 位有符号，并且是以倒计时的方式进行计数。除此之外，每一个定时器还有一个 32-bit 的控制寄存器。

寄存器类型	对应的物理定时器寄存器	对应的虚拟定时器寄存器
CV	CNTP_CVAL_EL0 CNTHP_CVAL_EL2 CNTHPS_CVAL_EL1	CNTV_CVAL_EL0 CNTHV_CVAL_EL2 CNTHVS_CVAL_EL2
TV	CNTP_TVAL_EL0 CNTHP_TVAL_EL2 CNTHPS_TVAL_EL2	CNTV_TVAL_EL0 CNTHV_TVAL_EL2 CNTHVS_TVAL_EL2
CTL	CNTP_CTL_EL0 CNTHP_CTL_EL2 CNTHPS_CTL_EL2	CNTV_CTL_EL0 CNTHV_CTL_EL2 CNTHVS_CTL_EL2

CV 和 TV 的区别

CV（CompareValue）：这是一个 64 位无符号的计数值，用于与系统计数器的当前值进行比较。当系统计数器达到或超过这个值时，定时器就会触发中断。
TV（TimerValue）：这是一个 32 位有符号的计数值，并且是以倒计时的方式进行计数。这意味着定时器从设定的值开始减去系统计数器的值，直到变为负数为止。

寄存器映射

物理定时器寄存器：物理定时器包括 CV 和 TV 类型的寄存器，以及一个CTL寄存器。这些寄存器分别对应于不同的异常级别（EL0、EL2 和 EL1）。
虚拟定时器寄存器：虚拟定时器也包括 CV 和 TV 类型的寄存器，以及一个CTL寄存器。同样，这些寄存器也对应于不同的异常级别（EL0、EL2 和 EL1）。

定时器中断

可以将计时器配置为生成中断。来自某个PE定时器器的中断只能传递到该PE。这意味着一个PE的定时器器不能用来生成针对另一个核心的定时器。通过 CTL 寄存器控制中断的生成，使用以下字段:

中断的生成由 CTL 寄存器控制，使用以下字段：

ENABLE — 启用定时器。
IMASK — 中断屏蔽。启用或禁用中断生成。
ISTATUS — 当 ENABLE==1 时，报告是否正在触发（CVAL <= System Count）。

要生成中断，软件必须将 ENABLE 设置为 1 并清除 IMASK。当定时器触发（CVAL <= System Count）时，向中断控制器发出中断信号。在 Armv8-A 系统中，中断控制器通常是通用中断控制器（GIC）。

每个定时器使用的中断 ID（INTID）由服务器基础体系结构（SBSA）定义，如下所示：

注意: 这些 INTID 在私有外围中断(PPI)范围内。这些 INTID 对于特定的PE，这意味着每个核心将其 EL1物理计时器视为 INTID 30。

定时器中断虚拟化

在arm平台上的定时器虚拟化相对简单，因为构架强制Generic Timer必须实现，它足够操作系统使用的timekeeping 的需求。KVM使用类似bhyvearm64的方式：virtual timer给虚拟机用，需要注意的是timer产生的中断还是需要hypervisor注入，Physical timer由软件模拟，因为它被host使用了。

A. Generic Timer

Armv8构架提供的定时器叫做Generic Timer.　实现上实际包括至少两个不同的timer, 最多到７个。一个系统可以有一个secure physical timer, 一个non secure physical timer, 通常简称为physical timer, 一个 virtual timer, physical和virtual non-secure EL2 timers, physical和virtual secure EL2 timers. 为虚拟化目的，我们聚焦在一般操作系统使用的timer上，也就是physical timer (它计数逝去的真实时间)和virtual timer（它计数带固定偏移的逝去时间）。
Host操作系统需要排他性地使用一个timer；虚拟机拉慢host是不可取的。Bhyvearm64分配physical timer给host, virtual timer给正在这个core上运行的虚拟机，这样做是基于以下原因：

因为virtual timer从一个固定的offset开始计数时间，运行在虚拟机里的guest可以被欺骗地认为定时器与虚拟机在同样的时间开始。
当physical timer和virtual timer同时存在且虚拟化没有激活时，FreeBSD和Linux倾向于选择virtual timer而不是physical timer。在没有嵌套式虚拟化支持的虚拟机中，总会是这样的情况。
Armv8.0构架提供了通过trap读写的方式模拟physical timer的机制，而对virtual timer没有这样的机制。

B. Virtual timer虚拟化

Timer中断是极度时间敏感的。Timer中断以规律性的间隔到来（FreeBSD kernel配置为每１ms一个中断），因为它们这么频繁，因此花太多的时间服务这个中断是极不可取的。这对虚拟中断来说也是适用的：hypervisor在模拟timer上花的时间越少，下一个中断到来前，虚拟机可以利用的CPU时间越多。
为了达到注入timer中断最小化开销的目的，bhyvearm64分配Generic timer的virtual timer部分直接给虚拟机。Guest操作系统可以自由地配置这个timer，而不需要hypervisor的参与。但虚拟timer中断还是需要由hypervisor管理。这是因为更具Popek和Goldberg控制法则，host必须总是控制硬件，这也意味着控制中断的发送。没有硬件机制来选择那些中断需要重定向到虚拟机。当运行guest时，所有的中断都发送给host, host来选择那些需要呈现给虚拟机。

中断天然地是异步的；它们可能在任何时候到来，不过处理器在执行什么程序。这也适用于virtual timer中断：一个虚拟timer中断可以在另一个host程序而不是在编程这个timer的虚拟机运行在CPU上时到来。Virtual Timer需要一个机制，在触发中断之前辨别是否是这个timer的虚拟机。

物理世界的时间（墙上时间）4ms里，每个vCPU各运行了2ms。如果我们设置vCPU0的比较器在T=0之后的3ms产生一个中断，那么你希望实际在哪个墙上时间点产生中断呢？

是vCPU0的虚拟时间的2ms，也就是墙上时间3ms那个点还是 vCPU0虚拟时间3ms的那个点？

在Arm体系结构中同时支持上述两种设置，这取决于你使用何种虚拟化方案。让我们看看这是如何实现的。

运行在vCPU上的软件可以访问如下两种时钟

EL1物理时钟
EL1虚拟时钟

EL1物理时钟会与系统计数器(System Conter)模块直接比较，使用的是绝对的墙上时间。而EL1虚拟时钟与虚拟计数器比较。虚拟计数器是在物理计数器的基础上减去一个偏移。

Hypervisor负责为当前调度运行的vCPU指定对应的偏移寄存器。这种方式使得虚拟时间只会覆盖vCPU实际运行的那部分时间。

在一个6ms的时段里，每个vCPU分别运行了3ms。Hypervisor可以使用偏移寄存器来将vCPU的时间调整为其实际运行的时间。

1 reply

luodeb Oct 24, 2024
Collaborator Author

待解决的问题

如果每个 vCPU 的 offset 都不一致，如何保证VM获取到准确时间，还有同步该VM下的所有vCPU时间？

假设能够同步所有时间，当配置一个1000ms的中断，但是该VM下的vCPU实际只运行了500ms，这个时候应不应该按时注入中断？如果按VM的实际运行时间配置中断，那么这个中断该如何计算？

luodeb · 2024-10-23T07:34:23Z

luodeb
Oct 23, 2024
Collaborator Author

串口中断管理

在Rust-Shyper中，物理串口是默认分配给第一个管理VM，其他VM的串口挂载到第一个VM下，我们是不是可以使用toml文件来配置将串口中断分配给哪个VM，然后其他VM的串口虚拟到统一的VM中。

0 replies

ChoHee15 · 2024-10-29T08:48:33Z

ChoHee15
Oct 29, 2024
Collaborator

虚拟中断控制器接口与定义

structure

由于结构上的差异，各个架构的中断控制器可能不会共用数据结构，而是编写不同的struct，实现同一个trait。

如果需要的话，中断控制器连接中断源和目标，以下的结构应该是相似的：

// 中断源相关
struct Source {
    // 中断源的优先级
    priority: u32,
    // 中断源的等待处理标识
    pending: bool,
}

// 目标（核心）相关
struct Target {
    // 目标门限，当中断源优先级超过此门限时才有效
    threshold: u32,
    // 此目标对于每个中断源的使能
    enable: [bool; SOURCE_NUM],
    // 存放最优中断源
    claim: u32,
}

问题：

一些状态可能是bit表示的，而对其的读写是基于寄存器大小的。
例如在riscv PLIC中，中断源ID为0-31的pending位被放置在一个4B的寄存器内。guest会直接读取这个寄存器，此时就需要遍历ID为0-31的Source的pending，将其合成为一个u32并返回。
这样的效率可能就不如“对寄存器模拟”，即直接提供一个u32变量，而不是将其分散到每个Source结构的pending bool变量中。

同时，不同架构/控制器间可能会存在不一致：假如控制器A实现enable是按bit进行的，其倾向于直接模拟整个寄存器enable: [u32; MAX_SOURCE / 32]。而控制器B并非如此，它使用1B实现enable，它可能倾向于模拟enable: [u8; MAX_SOURCE]。

这些可能的差异，会给不同架构/控制器使用统一结构带来问题。

interface

basic

基础接口。其中关于数据类型，发送中断信号的接口，是否定义claim/complete，以及不同数据长度的读写，有多种方案，需要做具体讨论。

trait InterruptController {
    // 为设备提供发送中断信号的接口，包括连接哪个中断源（待定），和触发方式（电平/边缘）
    fn send_irq(source_id: u32, level: bool);

    // 写入，第一种实现
    fn write_u32(addr: usize, val: u32);
    fn write_u16(addr: usize, val: u16);
    fn write_u8(addr: usize, val: u8);
    ...

    // 读取，第一种实现
    fn read_u32(addr: usize) -> u32;
    fn read_u16(addr: usize) -> u16;
    fn read_u8(addr: usize) -> u8;
    ...

    // Claim过程，查看当前的最优中断源，可能会在read中使用而不需要对外暴露
    fn claim() -> u32;

    // Complete过程，告知中断控制器处理完成，可能会在write中使用而不需要对外暴露
    fn complete(val: u32);

    // get/set各种属性，可能并不需要对外暴露
    // fn set_priority(source_id: u32, priority: u32);
    // fn get_priority(source_id: u32) -> u32;
    // fn set_enable(target_id: u32, enable: bool);
    // fn get_enable(target_id: u32) -> bool;
    ...
	
}

关于数据类型：
上文假设中断源ID为u32类型，claim寄存器为u32类型。这类结构的大小，在不同控制器中可能是不一致的。

关于发送中断信号的接口：
当前的设计，即fn send_irq(source_id: u32, level: bool);，其实假设的是，设备知道自己对应于哪个中断源ID；模拟设备使用此方法时，会直接附上自己的ID。因此，需要确定这一假设是否成立。

其次，现实中，物理设备连接哪个中断源，就在哪个中断源上，它无法影响其他的中断源。而在当前的设计中，模拟设备理论上可以用任意中断源ID调用fn send_irq(source_id: u32, level: bool);。是否需要一种机制，保证设备只能以自己的source id操作控制器，还是将这一责任交给模拟设备的实现？

关于是否定义claim/complete：
pub trait的所有方法都是对外可见的，然而claim/complete作为可能共有的行为，在一些实现中会蕴含于读/写行为（如riscv PLIC）。因此可能不需要被定义。

关于不同数据长度的读写，见下文的其他实现方式

读写实现：数据长度作为参数

数据长度作为参数，使用最大变量（如u64）作为数据容器，在不同分支中做截断/扩展。

// 读取，第二种实现
fn read(addr: usize, len: usize) -> u64 {
    match len {
        8 => {
            let res: u8 = ...;
            return res as u64
        }
        16 => {
            let res: u16 = ...;
            return res as u64
        }
        32 => {...}
        ...
    }
}

// 写入，第二种实现
fn write(addr: usize, val: u64, len: usize) -> u64 {
    match len {
      8 => {
        let data: u8 = val as u8;
	...
      }
      16 => {
        let data: u16 = val as u16;
        ...
      }
      32 => {...}
      ...
    }
}

读写实现：泛型

使用泛型接口，并定义一个trait WriteRead<T>，实现具体控制器时，为控制器实现具体类型的WriteRead<T>。

trait InterruptController {
    fn send_irq(source_id: u32, level: bool);

    // 泛型的写接口
    fn write<T>(&self, addr: usize, val: T)
    where
        Self: WriteRead<T>,
    {
        Self::write_impl(addr, val);
    }

    // 泛型的读接口
    fn read<T>(&self, addr: usize) -> T
    where
        Self: WriteRead<T>,
    {
        Self::read_impl(addr)
    }
}

trait WriteRead<T> {
    fn write_impl(addr: usize, val: T);
    fn read_impl(addr: usize) -> T;
}

例子：

// 自定义控制器
pub struct myic {
    base: u64,
    size: u32,
    data: [u32; 10]
}

// 控制器自有方法
impl myic {
    pub fn new(base: u64, size: u32) -> Self {
        myic{
            base,
            size,
            data: [0; 10],
        }
    }
}

// 实现接口
impl InterruptController for myic {
    fn send_irq(&self, source_id: u32, level: bool) {
        println!("myic send irq");
    }
    ...
}

// 实现对u8的读写
impl WriteRead<u8> for myic{
    fn read_impl(addr: usize) -> u8 {
        println!("myic read u8");
        8
    }

    fn write_impl(addr: usize, val: u8) {
        println!("myic write u8");
    }
}

// 实现对u32的读写
impl WriteRead<u32> for myic {
    fn read_impl(addr: usize) -> u32 {
        println!("myic read u32");
        32
    }

    fn write_impl(addr: usize, val: u32) {
        println!("myic write u32");
    }
}

// main.rs
fn main() {
    let ic = myic;

    ic.send_irq(1, true); // myic send irq
    
    ic.write(0x100, 5 as u32); // myic write u32
    ic.write::<u8>(0x100, 4); // myic write u8

    ic.read::<u8>(0x100); // myic read u8
    ic.read::<u32>(0x100); // myic read u32
}

2 replies

luodeb Oct 30, 2024
Collaborator Author

中断设备的读写

使用现有的BaseDeviceOps来进行操作

pub trait BaseDeviceOps {
    /// Returns the type of the emulated device.
    fn emu_type(&self) -> EmuDeviceType;
    /// Returns the address range of the emulated device.
    fn address_range(&self) -> AddrRange<GuestPhysAddr>;
    /// Handles a read operation on the emulated device.
    fn handle_read(&self, addr: GuestPhysAddr, width: usize, vcpu: &dyn VCpuIf) -> AxResult<usize>;
    /// Handles a write operation on the emulated device.
    fn handle_write(&self, addr: GuestPhysAddr, width: usize, val: usize, vcpu: &dyn VCpuIf);
}

每个架构的中断控制器都impl这个BaseDeviceOps，传入vcpu作为判断中断是由哪个vcpu发起中断。

中断源部分

关于中断源可能需要修改，将pending改为status: u8，因为中断不止一个状态，可能存在多种更为复杂的状态。
关于目标可以描述的更为详细一些，比如指定由哪个vCPU来处理这个中断，如果没有指定，那么默认处理该中断的vCPU是哪个。

ChoHee15 Oct 30, 2024
Collaborator

关于“中断设备的读写”

这里的意思是，中断控制器和其他设备相似的部分由BaseDeviceOps负责，其特有的接口放入其他trait如trait InterruptController；然后控制器需要同时实现这两个trait是吗？

如果是这样，我认为是更好的。

然后关于“传入vcpu作为判断中断是由哪个vcpu发起中断”，由于PLIC只涉及外部设备中断，所以暂不涉及这一问题。我想确认一下，其他架构，比如arm，会有“通过mmio访问中断控制器向其他cpu发起中断”的情况是吗？

对riscv来说，其他两种类型的中断（定时器/软件中断）由CLINT或ACLINT控制器负责，但是它们只能在M mode被访问，不被暴露给S mode的操作系统。当需要设置定时器或发送核间中断时，操作系统会通过sbi调用，“申请”M mode的软件，如OpenSBI，对CLINT或ACLINT进行操作。这一行为不会通过pagefault/mmio被拦截，而是通过riscv的Environment Call被捕获。

关于“中断源部分”

pending

由于我不清楚其他中断控制器，因此我是基于riscv PLIC进行的初步设计。对于PLIC来说，pending是一个物理结构，中断源发出的信号会锁存在这个结构里，表示“此中断源有待处理的信号”；pending会在claim后被清除，此后对应的中断源不再参与仲裁。它被按bit编入一个4B的mmio寄存器，此寄存器可以被只读访问。

于是以PLIC为例，我加入了pending: bool，加入它的假设是“对于所有中断控制器来说，中断源应该都有一个属性，表示此中断源是否有中断信号待处理”。

然后关于状态，riscv PLIC的手册中不涉及状态的管理，也没有给出控制器的状态机定义。若其他架构需要维护，或许可以加入一个status成员。

目标

我的想法是，Source代表控制器的“入口”，“入口”方连接设备。Target表示的是控制器的“出口”，“出口”方连接cpu。

我在实现vPLIC时，使用Target的方式类似：targets: [Target; CPU_NUM]，即cpu的id与下标是对应的。在这种情况下，通过targets[cpu_id]获取目标，本身就通过下标知道了对应的cpu_id。

不过这基于的假设是，中断控制器Target和Cpu的连接具有某种映射关系，可以从Target推出cpu_id。例如中断控制器的Target0会连接Cpu0，Target1会连接Cpu1等。手册很可能并没有规定连接方式这一点，因此假设是错误的。

这确实是一个需要增加的成员，Target中应该有vcpu_id或者vcpu的引用，来表示其与vcpu的关系。

另外，我不太明白“如果没有指定，那么默认处理该中断的vCPU是哪个”的情况。在我基于PLIC的理解中，cpu是被硬连线在控制器的“出口”（Target）的，若存在一个“出口”的导线不与cpu连接（即没有指定），那么这个导线上的信号自然不会有cpu响应。

各个控制器，或许不会统一使用类似struct Source/struct Target的结构

aarkegz · 2024-11-01T10:00:19Z

aarkegz
Nov 1, 2024
Maintainer

更新的Timer设计文档

记录基于沛中的设计文档的修改

Guest 对 Timer 的访问

移除 SetTimer 和 TimerIrq 两种 AxVCpuExitReason，增加 SbiCall（具体名字由 RISC-V 方面决定）AxVCpuExitReason。Timer 应该作为一种设备，通过 MSR/CSR 或 MMIO 或 SBI 等方式访问。Timer 向 TimerList 注册事件，TimerList 会在时间到达时调用 Timer 的回调函数。

TimerList

TimerList 是一个好的设计，总体上不需要大改。需要修改的部分是：

存储 Task 引用应该使用 AxTaskRef 类型，不要使用 CurrentTask 类型；
应该提供一个方法 cancel_timer_for_task(task: AxTaskRef)，用以取消指定 Task 的所有 Timer 事件；现有的 cancel_timer 方法可以做到这一点，但是提供一个新的方法不仅方便，也有利于提醒“在VCpu退出时应该取消所有Timer事件”这一点。

Timer 对 Guest 的通知

AxVM 中应该添加一个新的方法 inject_interrupt_to_vcpu(vector: usize) -> AxResult，用以向指定的 AxVCpu 注入中断。如果指定的 AxVCpu 正处于不能立刻处理中断的状态（类似于沛中提到的 case 3），则通过 IPI 处理。

选择将中断注入的操作放在 AxVM 中而非 AxVCpu 中，是因为 AArch64 下注入中断的操作不仅需要访问 AxVCpu 的状态，还需要访问 VGIC。

在向 TimerList 注册事件时，Timer 应该通过 current_task 的 TaskExt 得到当前的 AxVM，并且在回调函数中调用 AxVM::inject_interrupt_to_vcpu 注入中断。

10 replies

luodeb Nov 2, 2024
Collaborator Author

我理解的是，Guest 设置 Timer 的时候应该不需要我们真的设置一个物理的 Timer？而是应该在 ArceOS 的 tick 里面去检查 TimerList？

@hky1999 @guoweikang 大佬们确认一下这个可行吗？我不太确定。

luodeb Nov 4, 2024
Collaborator Author

是不是得确定一个最小的timer设定值，比如1ms之类的。

aarkegz Nov 4, 2024
Maintainer

增加 SbiCall（具体名字由 RISC-V 方面决定）

另外，这里是不是可以直接复用现有的 Hypercall？@PeizhongQiu

hky1999 Nov 4, 2024
Maintainer

增加 SbiCall（具体名字由 RISC-V 方面决定）

另外，这里是不是可以直接复用现有的 Hypercall？@PeizhongQiu

Please check this PR arceos-hypervisor/riscv_vcpu#10, where I introduced EID_HVC for hypercalls triggered through ecall, anyway, this is our own convention

aarkegz Nov 4, 2024
Maintainer

Guest 设置 Timer 的时候应该不需要我们真的设置一个物理的 Timer？而是应该在 ArceOS 的 tick 里面去检查 TimerList？

不需要真实设置

关于case3中的ipi，一个共有的操作可能是“让vcpu所在的物理cpu执行某个函数”

在AxVM::inject_interrupt_to_vcpu中实现

增加 SbiCall（具体名字由 RISC-V 方面决定）

确实要增加，SbiCall和Hypercall不一样

guoweikang · 2024-11-04T07:28:26Z

guoweikang
Nov 4, 2024
Collaborator

如果不考虑 HOST 还是 GUEST，timer 需求定义和描述，应该是下面两个：

时间：能够保证 GUEST VM 的不同VCPU 能够获得时间尽可能同步的全局时间,全局时间的含义为：当前 VM 认为已经走过的时间
时间中断：能够支持 GUEST VM 的某个VCPU 具备尽可能精确的时钟中断能力

ArceOS的实现, 其实关于 时间中断 目前也是一个 非高精度 的时间中断 (基于固定的schedule timer tick )，对基于ArceOS 的hyper 提出要实现一个高精度的时钟中断，目前阶段是不合适的。

关于第1个需求：保证 GUEST VM 的不同VCPU 能够获得时间尽可能同步的全局时间。

考虑到调度因素，同一个 VM 的不同VCPU ，经过的时间是不相同的，如何定义VM 的时间？个人认为，以运行时间最长的VCPU可能是合适的 OFFSET = MIN(vcpu_offset) ，关于VCPU OFFSET 不做解释

关于第2个需求：能够支持 GUEST VM 的某个VCPU 具备尽可能精确的时钟中断能力

关于精度: 暂时可以不需要考虑高精度，基于 HOST 中的timer wheel实现即可
关于时间定义：是以VCPU 实际运行时间还是 HOST 实际运行时间？比如 VCPU 设置了 10ms timer,但是 5ms 在运行另外的VCPU，应该如何计算？

1 reply

hky1999 Nov 4, 2024
Maintainer

如果不考虑 HOST 还是 GUEST，timer 需求定义和描述，应该是下面两个：

时间：能够保证 GUEST VM 的不同VCPU 能够获得时间尽可能同步的全局时间,全局时间的含义为：当前 VM 认为已经走过的时间

时间中断：能够支持 GUEST VM 的某个VCPU 具备尽可能精确的时钟中断能力

ArceOS的实现, 其实关于 时间中断 目前也是一个 非高精度 的时间中断 (基于固定的schedule timer tick )，对基于ArceOS 的hyper 提出要实现一个高精度的时钟中断，目前阶段是不合适的。

关于第1个需求：保证 GUEST VM 的不同VCPU 能够获得时间尽可能同步的全局时间。

考虑到调度因素，同一个 VM 的不同VCPU ，经过的时间是不相同的，如何定义VM 的时间？个人认为，以运行时间最长的VCPU可能是合适的 OFFSET = MIN(vcpu_offset) ，关于VCPU OFFSET 不做解释

关于第2个需求：能够支持 GUEST VM 的某个VCPU 具备尽可能精确的时钟中断能力

关于精度: 暂时可以不需要考虑高精度，基于 HOST 中的timer wheel实现即可

关于时间定义：是以VCPU 实际运行时间还是 HOST 实际运行时间？比如 VCPU 设置了 10ms timer,但是 5ms 在运行另外的VCPU，应该如何计算？

about timer, can we just refer the "vtimer" design in shyper, like this https://github.com/search?q=repo%3Ashyper-org%2Frtshyper%20vtimer&type=code, which can be implemented in arm_vcpu.

arceos-hypervisor

中断虚拟化设计文档 #36

Uh oh!

Uh oh!

luodeb Oct 18, 2024 Collaborator

一、GICv2介绍

中断类型

1. 软件生成中断（Software Generated Interrupts, SGI）

2. 私有外设中断（Private Peripheral Interrupts, PPI）

3. 共享外设中断（Shared Peripheral Interrupts, SPI）

Distributor 作用

中断 ID

CPU Interface

二、中断处理状态机

添加挂起状态（A1、A2）

删除挂起状态（B1、B2）

挂起到激活（C）

挂起到激活和挂起（D）

删除激活状态（E1、E2）

三、中断虚拟化设计

中断虚拟化概要

Hypervisor interface (GICH)

vCPU interface (GICV, GICC in VM's view)

Virtual distributor (GICD in VM's view)

VM's view

VGIC设计

VGIC Distributor设计

VGIC初始化

多架构下的GIC路由，vint实现配置

vint_irq_routing_table

vint_set_routing_entry(vm, entries, nr, ue)

SGI软件生成中断

Hypervisor对SGI的拦截

SGI的处理与路由

虚拟GIC的支持

PPI 私有外设中断

VM发起PPI请求

Hypervisor拦截请求

PPI的路由和分发

目标vCPU处理中断

Hypervisor的清理工作

SPI 共享外设中断

VM发起SPI请求

Hypervisor的拦截和管理

SPI的路由和重定向

目标vCPU处理中断

Hypervisor的清理工作

List Register

KVM关于VGIC的设计

Replies: 6 comments · 16 replies

Uh oh!

Uh oh!

PeizhongQiu Oct 21, 2024 Maintainer

timer 接口与定义

data structure

TimerList 相关接口

timer 相关接口

situation

case1

case2

case3

case4

timer 处理的全流程

其他 timer 中断处理的接口

Uh oh!

luodeb Oct 23, 2024 Collaborator Author

Uh oh!

PeizhongQiu Oct 23, 2024 Maintainer

Uh oh!

luodeb Oct 23, 2024 Collaborator Author

ARM 定时器中断

通用定时器(Generic Timer)

在实际硬件设计中，如何实现这种跨时钟域的数据传输？

多核处理器芯片中如何保证时钟同步？

多芯片时钟同步

每个PE实现的通用定时器组件

物理定时器(Physical Timer)

虚拟定时器(Virtual Timer)

Timers

CV 和 TV 的区别

luodeb
Oct 18, 2024
Collaborator

Replies: 6 comments 16 replies

PeizhongQiu
Oct 21, 2024
Maintainer

luodeb Oct 23, 2024
Collaborator Author

PeizhongQiu Oct 23, 2024
Maintainer

luodeb
Oct 23, 2024
Collaborator Author

luodeb Oct 24, 2024
Collaborator Author

luodeb
Oct 23, 2024
Collaborator Author

ChoHee15
Oct 29, 2024
Collaborator

虚拟中断控制器接口与定义

luodeb Oct 30, 2024
Collaborator Author

ChoHee15 Oct 30, 2024
Collaborator

aarkegz
Nov 1, 2024
Maintainer