分页虚拟存储理论

0x00 很久之前

在很久之前，计算机使用单程序存储管理。

在这种管理模式下，每次只能运行一个程序。操作系统每次将相应的程序从磁盘加载到 RAM 中。直至进程运行结束后跳转到操作系统代码，操作系统再根据用户需求将程序装入 RAM 中，覆盖掉旧的程序。存在问题：

一次只能运行一个程序
进程（程序）的切换很慢
程序的大小取决于 RAM 物理内存的大小

事实上，后面又发展了多道程序，交换技术等技术来试图解决上述问题但效果不好，这里就不展开讲了，但为什么会讲一下单道存储管理，因为其与 Linux 虚拟存储空间布局很像，暂时无需知道什么是虚拟存储空间。

0x01 虚拟存储器 Virtual Memory

虚拟存储技术发展的根本原因： RAM 小且昂贵，无论是上世纪还是当下，RAM 都是小且昂贵的资源，所以我们不得不充分利用，进而发展出虚拟存储技术。假设我们的 RAM 可以无限大且廉价。

虚拟存储的基础及事实：

局部性原理：程序在执行时呈现出局部性规律，即在一段时间内，整个程序的执行仅限于程序中的某一部分。这也意味着并不需要完全把程序加载到 RAM 也能保证程序的执行。
磁盘空间很大且足够便宜，可以把程序暂时不需要的那一部分放在磁盘上，把需要的那部分放在 RAM 上。

Virtual Memroy[1] 由 Fotheringham 在 1961 年提出[2]，其基本思想是：

程序的代码数据和栈的总大小可以超过物理内存（RAM）
操作系统将正在运行的程序的需要的那部分保留在内存中，而将当前不使用的部分放置在磁盘上，根据需要调入内存。

根据虚拟存储器实现的技术可以分为：

页式：采用 分页 Paging 技术
段式：采用 分段 Segmentation 技术
分页分段结合：Paged Segmentation

目前大多数虚拟存储管理系统都采用分页 paging 技术，本文也仅讲解分页存储管理。

0x02 分页基本思想

将物理内存划分为为许多固定大小（PAGE SIZE）的内存块，称为物理页面页框 page frame,并为每个页框从低地址开始编号称为PFN。
将程序（用户程序和OS）中使用的地址称为虚拟地址，并构成虚拟地址空间。将虚拟地址空间划分为大小相同的块，称为虚拟页面 page。
CPU 访问程序中使用的地址时，并不是放在地址总线上，而是被送往存储管理单元 MMU，其利用映射关系（其实就是页表）将虚拟地址转化为物理地址后再进行访问。

Example

RAM 大小为 16KB(0x0000 ~ 0x3fff)，虚拟地址空间为 32KB(0x0000 ~ 0x7fff)
页框大小为 4KB
某一时刻系统中的映射关系如下:

此时 CPU 执行下面指令：

MOVE REG,0x3002

在启用分页虚拟内存后，CPU 看到的地址都是虚拟地址，此时 CPU 并不会直接把 0x3002 放在地址总线上，而是将 0x3002 地址送往 MMU，MMU 根据上述映射关系，找到页框号 PFN，计算出物理地址为 0x0002，进而将 0x0002 处内容放在寄存器中。

MMU 如何工作:

根据虚拟地址和映射关系（页表）找到 PFN
PFN 和页内偏移计算得到物理地址 物理地址计算公式

Physical Address = PFN * PAGE_SIZE + OFFSET

页内偏移计算：页内偏移通俗来讲就是余数，因为每个 Page 的大小是 4KB ，0x3002 就是第三个 page，再偏移 0x002 位置。更简单一点就是虚拟地址的低 12 位（PAGE SIZE =4KB）。 PFN 计算：这部分属于页表的内容，目前我们就是用眼看，可以看出来 PFN 是 0

关于虚拟空间中的操作系统：用户程序的执行是依赖操作系统的，比如用户程序打印 Hello World 到屏幕，用户程序是不知道如何操作屏幕（硬件）的，因此需要操作系统来帮助其操作硬件。从用户程序跳转到操作系统也称为陷入内核态。但是陷入内核态时我们的页表还是进程的页表，也就是进程的虚拟地址空间。假设进程的虚拟地址空间中没有内核，那么此时 CPU 也不知道操作系统在何处了。理解这点我们才能理解 Linux 虚拟地址空间映射 map。