六：操作系统虚拟内存之虚拟内存概念-EW帮帮网

深入理解操作系统：虚拟内存 (Virtual Memory) 与按需调页 (Demand Paging)

现代计算机系统能够同时运行多个复杂的程序，即使物理内存（RAM）容量有限。这背后隐藏着操作系统的一项核心技术：虚拟内存 (Virtual Memory)。虚拟内存不仅突破了物理内存容量的限制，还提供了内存隔离、更灵活的程序加载等重要功能。

本文将深入探讨虚拟内存的概念，以及最常用的实现方式之一——按需调页 (Demand Paging)。

1. 物理内存的困境：为什么需要虚拟内存？

在没有虚拟内存的早期系统中，程序直接访问物理内存地址。这导致了一些问题：

内存不足以运行大型程序： 如果程序的总大小超过了物理内存容量，就无法运行。
多程序运行时的问题：
- 地址冲突： 如果多个程序都想使用同一个物理内存地址（例如，都想从地址 0 开始存放代码），就会发生冲突。
- 内存分配不灵活： 必须找到一块连续的、足够大的物理内存空间来加载整个程序。内存碎片化会越来越严重。
- 缺乏隔离： 一个程序可以随意访问甚至修改另一个程序的内存，安全性无法保障。
程序加载缓慢： 必须将整个程序一次性从磁盘加载到内存后才能开始执行。

虚拟内存技术的出现，优雅地解决了这些问题。

2. 什么是虚拟内存？

虚拟内存是操作系统提供的一种抽象（Abstraction）。它给每个进程提供了一个独立、连续且巨大的地址空间，称为虚拟地址空间。这个空间的大小通常远大于实际的物理内存。

虚拟地址 (Virtual Address): 程序中使用的地址。程序看到的内存范围是从 0 到某个非常大的值（例如，在 64 位系统上可达 2^64）。
物理地址 (Physical Address): 实际硬件内存（RAM）的地址。

虚拟内存的核心思想是：将程序的虚拟地址空间映射（Mapping）到物理内存空间。这种映射是由操作系统和硬件（主要是 内存管理单元，MMU - Memory Management Unit）共同完成的。

我们可以将这个过程类比为一个巨大的图书馆（虚拟地址空间）和一小块阅览室（物理内存）。图书馆里有无数的书（虚拟页面），但阅览室（物理帧）只能容纳一部分书。当你需要看某本书时，图书管理员（MMU + OS）会去图书馆找到这本书，并把它带到阅览室给你。

虚拟地址空间被划分为固定大小的块，称为页面 (Page)。相应的，物理内存被划分为同样大小的块，称为物理帧 (Physical Frame) 或 页框 (Page Frame)。

映射关系： 虚拟内存系统维护一个数据结构，称为页表 (Page Table)，来记录虚拟页面到物理帧的映射关系。每个进程都有自己的页表，这保证了进程之间的内存隔离。

一个页表条目 (Page Table Entry, PTE) 通常包含：

物理帧号 (Frame Number): 如果页面在物理内存中，指向它所在的物理帧号。
存在位 (Present Bit): 一个标志位，表示该虚拟页面当前是否加载在物理内存中（1 表示在，0 表示不在）。
访问权限位 (Protection Bits): 控制对该页面的访问权限（读、写、执行）。
修改位/脏位 (Dirty Bit): 表示该页面在加载到内存后是否被修改过。
访问位 (Accessed Bit): 表示该页面最近是否被访问过。

地址翻译 (Address Translation) 示例

当 CPU 执行一条指令，需要访问一个虚拟地址时，会经过以下步骤：

CPU 将虚拟地址发送给 MMU。
MMU 根据虚拟地址计算出页号 (Page Number) 和页内偏移量 (Offset)。
MMU 使用页号作为索引，查找当前进程的页表。
MMU 检查对应页表条目的存在位。
- 如果存在位为 1：表示页面在物理内存中。MMU 读取物理帧号。
- 如果存在位为 0：表示页面不在物理内存中。这时会触发一个缺页中断 (Page Fault)，控制权转移给操作系统。
如果页面在内存中，MMU 将物理帧号与页内偏移量组合，生成最终的物理地址。
MMU 将物理地址发送给内存总线，访问实际的物理内存。

+-----------------+        +-----------------+        +-----------------+        +---------------+
| Virtual Address | -----> |       MMU       | -----> |    Page Table   | -----> | Physical RAM  |
+-----------------+        +-----------------+        +-----------------+        +---------------+
      (Page Num, Offset)      (Lookup PTE)             (Frame Num, Flags)       (Frame Num, Offset)
                                                                 |
                                                                 v
                                                         (If Present Bit = 0)
                                                                 |
                                                                 v
                                                       +-----------------+
                                                       |  Page Fault     |
                                                       |  (Trap to OS)   |
                                                       +-----------------+

3. 按需调页 (Demand Paging)

虚拟内存解决了地址空间不足和隔离问题，但如何高效地管理页面加载呢？将整个程序一次性加载到内存仍然是低效的。这就是按需调页的意义所在。

按需调页的核心思想是：只在程序需要访问某个页面时，才将其从磁盘加载到物理内存中。

这意味着程序开始执行时，操作系统并不加载它的所有页面，而是只加载最少必需的几个页面（甚至最初一个都不加载，只加载入口点所在的页面）。程序运行过程中，如果试图访问一个当前不在物理内存中的页面，就会触发前面提到的缺页中断 (Page Fault)。

缺页中断 (Page Fault) 的处理流程

当 MMU 发现要访问的页面的页表条目中，存在位为 0（即页面不在内存中）时，会产生一个硬件中断，即缺页中断。操作系统捕获这个中断并执行以下步骤来处理：

验证地址： 操作系统首先检查导致缺页的虚拟地址是否有效（是否属于该进程的有效地址空间）。无效地址会导致段错误 (Segmentation Fault)。
查找页面位置： 操作系统确定所需的页面在磁盘（通常是交换空间 Swap Space 或程序的可执行文件本身）上的位置。
寻找物理内存空间：
- 操作系统寻找一个空闲的物理帧来加载页面。
- 如果存在空闲帧，直接使用。
- 如果没有空闲帧，操作系统需要选择一个当前在内存中的页面进行置换 (Page Replacement)。这通常涉及到使用某种页面置换算法（如 LRU, FIFO, Clock 等）来选择“牺牲者”页面。
页面置换（如果需要）：
- 如果被选择置换的页面在内存中被修改过（脏位为 1），需要先将该页面写回磁盘（通常是写到交换空间），以保存其最新状态。
- 清空被置换页面的页表条目，或者将其存在位设为 0。
加载所需页面： 操作系统发起一个 I/O 操作，将所需的页面从磁盘读取到找到的空闲物理帧中。
更新页表： 操作系统更新当前进程的页表，将被加载页面的页表条目指向新的物理帧号，并设置存在位为 1。
恢复执行： 缺页中断处理完成后，操作系统将控制权返回给中断发生前的进程，并重新执行导致缺页中断的那条指令。现在所需的页面已经在内存中，MMU 能够成功完成地址翻译，程序得以继续执行。

                               +-----------------------+
                               |   Page Fault Occurs   |
                               +-----------------------+
                                          |
                                          v
                               +-----------------------+
                               | 1. Validate Address   |
                               +-----------------------+
                                          |
                                          v
                               +-----------------------+
                               | 2. Find Page on Disk  |
                               +-----------------------+
                                          |
                                          v
                               +-----------------------+
                               | 3. Find Free Frame    |
                               |    (Maybe Evict Page) |
                               +-----------------------+
                                          |
                                          v
           (If Dirty Bit = 1)  +-----------------------+
           +-----------------> | 4. Write Evicted Page |
           |                   |    to Disk (Swap)     |
           |                   +-----------------------+
           |                              |
           v                              v
+-----------------------+      +-----------------------+
| 7. Restart Instruction|<-----| 6. Update Page Table  |
+-----------------------+      +-----------------------+
                                          |
                                          v
                               +-----------------------+
                               | 5. Read Required Page |
                               |   from Disk to Frame  |
                               +-----------------------+

按需调页的例子

考虑一个简单的 C++ 程序，它包含几个函数和大量的数据结构：

#include <iostream>
#include <vector>

// Assume this function is large and its code is in a different page
void process_data(std::vector<int>& data) {
    for (int i = 0; i < data.size(); ++i) {
        data[i] *= 2;
    }
    std::cout << "Data processed." << std::endl;
}

int main() {
    std::cout << "Starting program..." << std::endl; // Code for main() is on one page

    std::vector<int> my_data(1000000); // This vector data might span many pages

    // Initializing data - Accessing data pages might cause page faults
    for (int i = 0; i < my_data.size(); ++i) {
        my_data[i] = i;
    }
    std::cout << "Data initialized." << std::endl;

    // Calling process_data() - Accessing its code might cause a page fault
    process_data(my_data);

    // Accessing more data or code from other parts might cause more page faults

    std::cout << "Program finished." << std::endl;

    return 0;
}

当这个程序开始运行时：

操作系统可能只加载 main 函数最初几行代码所在的页面到物理内存。my_data 的数据页面和 process_data 函数的代码页面最初可能都在磁盘上，它们对应的页表条目存在位为 0。
执行到 std::vector<int> my_data(1000000); 时，分配了虚拟地址空间，但对应的物理内存页还没分配。
进入第一个 for 循环，试图访问 my_data[i]。当 i 足够大，访问到属于一个新页面（当前不在内存）的数据时，MMU 查找页表，发现存在位为 0，触发缺页中断。
操作系统介入，找到 my_data 对应的数据页面在磁盘上的位置，找一个物理帧，将该数据页面从磁盘读入物理内存，更新页表。然后，操作系统让 CPU 重新执行刚才导致缺页的指令。现在该页面在内存中，访问成功。
随着循环继续，可能会访问到更多不在内存的数据页面，每次都会触发类似的缺页中断和页面加载过程。
执行到 process_data(my_data); 时，CPU 尝试跳转到 process_data 函数的入口地址。这个地址属于 process_data 函数的代码页面。如果这个页面不在内存中，同样会触发缺页中断。
操作系统加载 process_data 的代码页面到物理内存，更新页表，然后重新执行调用 process_data 的指令。
在 process_data 函数内部访问 data[i] 时，也可能再次触发对数据页面的缺页中断。

这个例子说明，只有在程序真正需要访问某个特定的代码或数据页面时，它才会被加载到物理内存中。

4. 按需调页的优点

按需调页作为虚拟内存的主要实现方式，带来了显著的优势：

更有效地使用物理内存： 不需要将整个程序加载到内存，只加载当前使用的部分，从而节省了宝贵的 RAM 空间。这使得更多的程序可以同时运行，或者单个程序可以使用比物理内存更大的虚拟地址空间。
减少 I/O 流量和启动时间： 程序启动时不需要等待所有页面加载完成，可以更快地开始执行。减少了不必要的磁盘 I/O。
允许多个进程共享代码和数据： 操作系统可以将多个进程共用的代码库（如动态链接库）加载到内存中一次，并在它们的页表中映射到同一个物理帧，实现内存共享。
简化程序设计： 程序员无需关心物理内存的限制和分配细节，可以专注于逻辑实现，认为自己拥有一个巨大的连续地址空间。
改进响应速度： 程序的一部分可以快速加载和执行，用户可以更快地与程序交互。

总结

虚拟内存是现代操作系统中一个强大而基础的概念，它通过地址翻译为每个进程提供了独立的虚拟地址空间，解决了物理内存容量限制、多进程隔离和内存碎片化等问题。

而按需调页是实现虚拟内存最流行、最有效的方式。它通过只加载程序执行过程中实际需要的页面，极大地提高了物理内存的利用率，减少了程序启动和运行时的 I/O 开销。虽然缺页中断会带来一定的性能开销（需要磁盘访问），但对于大多数程序而言，其工作集（Working Set，即在一段时间内经常访问的页面集合）通常远小于程序的总大小，按需调页的收益远大于开销。

六：操作系统虚拟内存之虚拟内存概念

深入理解操作系统：虚拟内存 (Virtual Memory) 与按需调页 (Demand Paging)

1. 物理内存的困境：为什么需要虚拟内存？

2. 什么是虚拟内存？

地址翻译 (Address Translation) 示例

3. 按需调页 (Demand Paging)

缺页中断 (Page Fault) 的处理流程

按需调页的例子

4. 按需调页的优点

总结

网站公告

今日签到

热门文章

最新发布