[qemu+kvm]: smmu stage 2 建立流程

[qemu+kvm]: smmu stage 2 建立流程 1. qemu倡导 gpa和hpa映射关系在vm建立时不确定在运行时触发缺页异常后建立映射关系lazy binding。2. smmu stage 2要求 gpa和hpa的映射关系在vm建立时确定若在运行时触发缺页会导致dma失败pcie ats 除外两者有冲突那么 qemu 对于smmu stage 2 、mmu stage 2 ept建立到底是怎样的1.smmu stage2建立过程 对于vfio设备有自己专属的MemoryListenerstaticconstMemoryListener vfio_memory_listener{.namevfio,.region_addvfio_listener_region_add,.region_delvfio_listener_region_del,.log_global_startvfio_listener_log_global_start,.log_global_stopvfio_listener_log_global_stop,.log_syncvfio_listener_log_sync,};注册 hw/vfio/common.cmemory_listener_register(container-prereg_listener,address_space_memory);此MemoryListener的address_space_memory和ddr mem 相同所以当ddr mem增加时vfio_listener_region_add会被调用。通过memory_region_get_ram_ptr拿到hva通过section-offset_within_address_space 获得iova 将两个参数传入vfio_dma_mapvfio_dma_map调用ioctl(container-fd, VFIO_IOMMU_MAP_DMA, map)进入内核做映射进入内核vfio_pin_map_dmavfio_iommu_map会做真正的map 工作调用 arm_smmu_ops-map建立 smmu stage 2页表但在此之前已经得到了pfn pfn是通过vfio_pin_pages_remote获取的所以vfio_pin_pages_remote职责是分配物理页建立hva和hpa 的映射关系。staticlongvfio_pin_pages_remote(structvfio_dma*dma,unsignedlongvaddr,longnpage,unsignedlong*pfn_base,unsignedlonglimit,structvfio_batch*batch){retvaddr_get_pfns(mm,vaddr,req_pages,dma-prot,pfn,batch-pages);}在这里插入代码片vaddr_get_pfnsstaticintvaddr_get_pfns(structmm_struct*mm,unsignedlongvaddr,longnpages,intprot,unsignedlong*pfn,structpage**pages){retpin_user_pages_remote(mm,vaddr,npages,flags|FOLL_LONGTERM,pages,NULL);retry:vmavma_lookup(mm,vaddr);if(vmavma-vm_flagsVM_PFNMAP){retfollow_fault_pfn(vma,mm,vaddr,pfn,protIOMMU_WRITE);}比较清晰了通过pin_user_pages_remote 建立 hva到hpa的映射同时follow_fault_pfn是个兜底机制把映射关系放到task_struct-mm下2. mmu stage 2 建立过程因为smmu stage 2已经建立hva和hpa映射关系已经明确了同时gpa 和hva的关系在vm建立初期就明确了hva section_base gpa所以gpa和hpa的关系已经明确 那么mmu 在触发 mmu stage 2 缺页时只需要创建gpa到hpa的页表就行了不需要额外分配hpa。mmu stage2 缺页进入 user_mem_abortstaticintuser_mem_abort(structkvm_vcpu*vcpu,phys_addr_tfault_ipa,structkvm_memory_slot*memslot,unsignedlonghva,bool fault_is_perm){pfn__gfn_to_pfn_memslot(memslot,gfn,false,false,NULL,write_fault,writable,NULL);retkvm_pgtable_stage2_map(pgt,fault_ipa,vma_pagesize,__pfn_to_phys(pfn),prot,memcache,KVM_PGTABLE_WALK_HANDLE_FAULT|KVM_PGTABLE_WALK_SHARED);}__gfn_to_pfn_memslot负责找到gpa 对应的hpa kvm_pgtable_stage2_map负责建立 mmu stage 2 映射__gfn_to_pfn_memslot:kvm_pfn_t__gfn_to_pfn_memslot(conststructkvm_memory_slot*slot,gfn_tgfn,bool atomic,bool interruptible,bool*async,bool write_fault,bool*writable,hva_t*hva){hva_to_pfn(addr,atomic,interruptible,async,write_fault,writable);}hva_to_pfn:kvm_pfn_thva_to_pfn(unsignedlongaddr,bool atomic,bool interruptible..{if(hva_to_pfn_fast(addr,write_fault,writable,pfn))returnpfn;if(atomic)returnKVM_PFN_ERR_FAULT;npageshva_to_pfn_slow(addr,async,write_fault,interruptible,writable,pfn);}hva_to_pfn_fast 快速路径由于建立smmu stage2 时hva和hpa的关系已经明确所以这里走快速路径 hva_to_pfn_slow慢速路径如果guest没有透传设备每当guest访存时都要走慢速路径现场分配pfn。 函数细节有空展开分析。流程、原理已经说清楚了。