显示微型端口驱动程序可以指定可从中分配 DMA 缓冲区的光圈段。 DMA 缓冲区也可以分配为连续锁定的系统内存。
当应用程序需要 DMA 缓冲区时,视频内存管理器会分配和销毁这些缓冲区。 因此,视频内存管理器需要一组可以分配 DMA 缓冲区的段。 请注意,段集可能只包含一个段。
当 Microsoft DirectX 图形内核子系统调用显示微型端口驱动程序的 DxgkDdiCreateDevice 函数来创建图形上下文设备时,显示微型端口驱动程序可以指定视频内存管理器可从中分配 DMA 缓冲区的段集。 如果显示微型端口驱动程序将 DXGK_DEVICEINFO 结构的 DmaBufferSegmentSet 成员设置为 0,则视频内存管理器将为 DMA 缓冲区分配连续非分页内存;在这种情况下,显示微型端口驱动程序必须使用 PCI 周期访问内存,并且必须通过 DMA 直接从内存的物理地址发送数据。 如果显示微型端口驱动程序将 DmaBufferSegmentSet 设置为非零,则视频内存管理器将分配可分页内存并将页面映射到指定的光圈段。 光圈段内的页面在调用其 DxgkDdiSubmitCommand 函数时显示给显示微型端口驱动程序。
请注意,基本视频内存管理器模型不支持本地视频内存中的 DMA 缓冲区
1. DMA 缓冲区的分配位置
DMA 缓冲区(用于 GPU 命令提交)可以从以下两种内存区域分配:
1.1光圈段(Aperture Segment)
- 由驱动程序指定的 可分页系统内存,通过 PCI/PCIe 光圈映射到 GPU 可访问的地址空间。
- 视频内存管理器(VidMM)负责分配内存并将其映射到指定的光圈段。
- 在调用 DxgkDdiSubmitCommand 时,驱动程序通过光圈段访问 DMA 缓冲区。
1.2连续锁定的系统内存(Contiguous Non-Paged Memory)
- 如果驱动程序不指定光圈段(DmaBufferSegmentSet = 0),VidMM 会分配 物理连续的不可分页内存。
- 驱动程序必须通过 PCI 总线主控 DMA 直接访问物理地址(不经过光圈映射)。
1.3关键区别:
- 光圈段:内存可分页,需通过 GPU 光圈访问,灵活性高。
- 连续内存:物理地址固定,适合低延迟 DMA,但受限于物理连续性。
2. 驱动程序配置 DMA 缓冲区段
在创建图形上下文设备时(DxgkDdiCreateDevice),驱动程序通过 DXGK_DEVICEINFO 结构指定 DMA 缓冲区的段集:
DmaBufferSegmentSet 成员:
- 设为 0:VidMM 分配连续非分页内存(无光圈映射)。
- 设为非零:VidMM 分配可分页内存,并映射到指定的光圈段(段集由驱动定义)。
示例场景
高性能 GPU:可能配置多个光圈段(如 DmaBufferSegmentSet = 3 表示使用段 1 和段 2),以支持并发 DMA 操作。
轻量设备:可能直接使用连续物理内存(DmaBufferSegmentSet = 0),简化驱动实现。
3. 关键限制与约束
- 不支持本地视频内存:WDDM 基础模型禁止 DMA 缓冲区分配在 本地视频内存(GPU 专用显存)中,必须使用系统内存(光圈或连续内存)。
- 原因:确保 DMA 缓冲区可被 CPU 和 GPU 共同管理,避免显存碎片化。
- 光圈段的页面映射:若使用光圈段,VidMM 会在提交命令时(DxgkDdiSubmitCommand)确保内存页面已锁定并映射,驱动程序无需手动处理分页。
4. 驱动程序的职责
选择段策略:根据硬件能力决定使用光圈段还是连续内存(如支持 PCIe 光圈的设备优先用光圈段)。
处理物理地址(仅连续内存):若使用连续内存,驱动程序需通过 PCI DMA 直接访问物理地址。
兼容性保证:无论分配方式如何,驱动程序必须确保 DMA 缓冲区在提交时对 GPU 可见(如处理缓存一致性)。
5. 性能与灵活性权衡
分配方式 | 优点 | 缺点 |
---|---|---|
光圈段(可分页) | 内存利用率高,支持动态映射。 | 需要 GPU 光圈支持,可能有映射延迟。 |
连续系统内存(非分页) | 低延迟 DMA,适合简单硬件。 | 物理连续内存稀缺,可能分配失败。 |
总结
- 光圈段 是主流选择,适合现代 GPU,提供灵活的内存管理。
- 连续内存 是备用方案,适合旧硬件或特殊需求。
- 驱动程序通过 DmaBufferSegmentSet 控制行为,VidMM 负责底层分配与映射。
- 本地视频内存不可用于 DMA 缓冲区,这是 WDDM 设计的基本约束。
通过合理配置,驱动程序可以平衡性能与资源利用率,确保 GPU 命令高效提交。