【Linux】程序地址空间 -- 详解 Linux 2.6 内核进程调度队列 -- 了解

一、程序地址空间回顾

在学习 C/C++ 时,我们知道内存会被分为几个区域:栈区、堆区、全局/静态区、代码区、字符常量区等。但这仅仅是在语言层面上的理解,是远远不够的。

如下空间布局图,请问这是物理内存吗?

不是,下图是进程地址空间。

结论

  1. 进程地址空间不是物理内存。

  2. 进程地址空间会在进程的整个生命周期内一直存在,直到进程退出。

这也就解释了为什么全局/静态变量的生命周期是整个程序,因为全局/静态变量是随着进程一直存在的


二、验证地址空间的基本排布

// checkarea.c
#include <stdio.h>
#include <stdlib.h> // mallocint g_unval;    // 未初始化数据区
int g_val = 10; // 已初始化数据区int main(int argc, char* argv[], char* env[])
{printf("code addr        : %p\n", main); // 代码区printf("\n");const char *p = "hello";printf("read only        : %p\n", p);    // 字符常量区(只读)printf("\n");printf("global val       : %p\n", &g_val);   // 已初始化数据区printf("global uninit val: %p\n", &g_unval); // 未初始化数据区printf("\n");char *phead = (char*)malloc(1);printf("head addr        : %p\n", phead);  // 堆区(向上增长)printf("\n");printf("stack addr       : %p\n", &p);     // 栈区(向下增长)printf("stack addr       : %p\n", &phead); // 栈区printf("\n");printf("arguments addr   : %p\n", argv[0]);        // 命令行参数(第一个参数)printf("arguments addr   : %p\n", argv[argc-1]); // 命令行参数(最后一个参数)printf("\n");printf("environ addr     : %p\n", env[0]);         // 环境变量return 0;
}

运行结果:


三、虚拟地址和物理地址

定义一个全局变量 g_val,然后创建子进程,父子进程分别打印出变量值和变量地址。

#include <stdio.h>
#include <sys/types.h> // getpid
#include <unistd.h>    // getpid, fork
#include <stdlib.h>    // perrorint g_val = 0; // 全局变量int main()
{printf("before creating a new process, g_val = %d\n", g_val);pid_t ret = fork();if (ret == 0){// child processprintf(" child - pid: %u, g_val: %d, &g_val: %p\n", getpid(), g_val, &g_val);}else if (ret > 0){// father processprintf("father - pid: %u, g_val: %d, &g_val: %p\n", getpid(), g_val, &g_val);}else{perror("fork");}  return 0;
}

运行结果:

before creating a new process, g_val = 0
father - pid: 23014, g_val: 0, &g_val: 0x601058child - pid: 23015, g_val: 0, &g_val: 0x601058

通过观察可以发现,父子进程打印的变量值和变量地址是一样的,因为创建子进程通常以父进程为模版,父子进程并没有对变量进行进行任何修改。

如果将代码稍加改动:

#include <stdio.h>
#include <sys/types.h> // getpid
#include <unistd.h>    // getpid, fork, sleep
#include <stdlib.h>    // perrorint g_val = 0; // 全局变量int main()
{printf("before creating a new process, g_val = %d\n", g_val);pid_t ret = fork();if (ret == 0){// child processg_val = 100; // 在子进程中对变量进行修改printf(" child - pid: %u, g_val: %-3d, &g_val: %p\n", getpid(), g_val, &g_val);}else if (ret > 0){// father processsleep(3); // 父进程休眠,子进程一定会先退出,让父进程读取变量值和变量地址printf("father - pid: %u, g_val: %-3d, &g_val: %p\n", getpid(), g_val, &g_val);}else{perror("fork");}  return 0;
}

运行结果:

before creating a new process, g_val = 0child - pid: 25270, g_val: 100, &g_val: 0x601058  # 子进程先退出
father - pid: 25269, g_val: 0  , &g_val: 0x601058  # 父进程休眠3s后退出

子进程肯定先跑完,也就是子进程先修改,完成之后,父进程再读取。

可以发现:父子进程打印的变量值是不一样,但变量地址是一样的

父子进程代码共享,数据各自私有一份(写时拷贝

  • 变量内容不一样,说明父子进程中的变量绝对不是同一个变量
  • 打印的变量地址值是一样的,说明绝对不是物理地址。因为在同一物理地址处,不可能读取出两个不同的值。
  • 我们曾经在 C/C++ 语言或其它语言中学到或看到的地址(比如:取地址),全都是虚拟地址物理地址,用户是一概看不到的,由操作系统统一管理。
  • OS 必须负责将虚拟地址转化成物理地址

注意程序的代码和数据一定是存在物理内存上的。

因为想要运行程序就必须先将代码和数据加载到物理内存中,所以需要操作系统负责将虚拟地址转化成物理地址。

所以之前说 “ 程序的地址空间”  是不准确的,准确来说应该是 “ 进程地址空间”

上图说明:同一个变量打印的地址相同,其实是虚拟地址相同,而内容不同,其实是被映射到了不同的物理地址处。


四、理解地址空间

1、举例

假设有一个富豪,他有 10 亿美元的家产,而他有 3 个私生子,但这 3 个私生子彼此之间并不知道对方的存在。这个富豪对他的每个私生子都说过同一句话:“儿子,这 10 亿的家产未来都是你的”。站在每个私生子的视角来看,每个私生子都认为自己可以拥有 10 亿美元。

如果每个私生子都找父亲一次性要 10 个亿,那么这个富豪是拿不出来的。但实际上这是不可能的,每个私生子找父亲要钱,一般只会几千几万这样一点点去要,那么这个富豪只要有,就一定会给。而如果私生子要的钱太多,富豪不给,私生子也只会认为是父亲不想给。换而言之,这个富豪给每个私生子在大脑中建立一个虚拟的概念:都认为自己拥有 10 亿美元。

类比到计算机中:

  • 富豪 —— 操作系统
  • 私生子 —— 进程
  • 富豪给私生子画的 10 亿家产的 —— 进程的地址空间

通过上述例子,可以得出结论:

  • 操作系统默认会给每个进程构建一个地址空间的概念(比如在 32 位下,把物理内存资源抽象成了从 0x00000000 ~ 0xFFFFFFFF 共 4G 的一个线性的虚拟地址空间
  • 假设系统中有 10 个进程,每个进程都会认为自己有 4G 的物理内存资源。(这里可以理解成 OS 在画大饼)

2、认识地址空间

  • 在 Linux 中,地址空间其实是内核中的一种数据结构
  • 在 Linux 中,OS 除了会为每个进程创建对应的 PCB(即 struct task_struct 结构体),还会创建对应的进程地址空间,即内核中的 struct mm_struct 结构体。

空间的本质无非就是多个区域(栈、堆…)的集合。

那么在 struct mm_struct 结构体中,OS 是如何表述(划分)这些区域的呢?

定义 start 和 end 变量来表示每个区域起始和结束的虚拟地址。然后通过设置这些 start 和 end 的值,对抽象出的这个线性的虚拟地址空间(在 32 位下,是从 0x00000000 ~ 0xFFFFFFFF 共 4G)进行区域划分

struct mm_struct {// ...unsigned long code_start;   // 代码区起始虚拟地址,比如 0x10000000hunsigned long code_end;     // 代码区结束虚拟地址,比如 0x00001111hunsigned long init_start;   // 已初始化数据区unsigned long init_end;unsigned long uninit_start; // 未初始化数据区unsigned long uninit_end;unsigned long heap_start;   // 堆区unsigned long heap_end;// ...
};

3、什么是地址空间

进程地址空间:

地址空间究竟是什么?

地址空间的本质:操作系统让进程看待物理内存的方式,这是抽象出来的一个概念。地址空间是内核中的一种数据结构,即 struct mm_struct 结构体。由 OS 给每个进程创建,这样每个进程都认为自己独占系统内存资源。

划分区域的本质:把线性的地址空间划分成了一个个的区域,通过设置结构体内的 start 和 end 的值来表示区域的起始和结束。(比如栈区和堆区的增长)

为什么要进行区域划分呢?
  1. 可以通过 [start, end] 进行初步判断访问某个虚拟地址时,是否越界访问了
  2. 因为可执行程序在磁盘中是被划分成一个个的区域存储起来的,所以进程的地址空间才有了区域划分这样的概念,方便进程找到代码和数据
  • 虚拟地址的本质:每个区域 [start, end] 之间的各个地址就是虚拟地址,之间的虚拟地址是连续的

五、地址空间和物理内存之间的关系

虚拟地址物理地址之间是通过页表来完成映射的。


六、存在地址空间的原因

直接让进程去访问物理内存不行吗?
  • 早期,操作系统是没有进程地址空间的,这就导致物理内存暴露,恶意程序可以直接通过物理地址来进行内存数据的读取,甚至篡改。
  • 后来,随着操作系统的发展迭代,有了进程地址空间(虚拟地址),由操作系统完成虚拟地址和物理地址之间的转化。

为什么还要存在地址空间呢?

(1)有效的保护物理内存。

因为地址空间和页表是 OS 创建并维护的,也就意味着凡是想使用地址空间和页表进行映射,也就一定要在 OS 的监督之下来进行访问,也保护了物理内存中的所有合法数据,包括各个进程,以及内核的相关有效数据。

在进程内不能非法访问或映射,因为 OS 会进行合法性检测,如果非法则终止进程。
  • 通过划分区域中虚拟地址的起始和结束(即 start 和 end 的值)来判断当前访问的地址是否合法。

比如:如果用户想在某个虚拟地址处写入,但检测到该虚拟地址在字符常量区的 start 到 end 之间,而字符常量区是只读,说明非法越界访问了,OS 会直接终止进程。

char *str = "hello world";
*str = 'H'; // error

  • 通过页表中的权限属性,来判断当前访问的地址是否合法。页表完成了虚拟地址到物理地址之间的映射,而页表中除了有基本的映射关系之外,还可以进行读写等权限相关的管理。

比如:如果用户想在某个虚拟地址处写入,通过页表进行虚拟地址到物理地址的转换时,发现该地址处只有读权限,说明非法访问了,页表拒绝转换,OS 直接终止进程。


(2)内存管理模块进程管理模块在系统层面上进行解耦合。 

操作系统的核心功能:内存管理、进程管理、文件管理、驱动管理。

  • 没有进程地址空间时,内存管理必须得知道所有的进程的生命状态(创建、退出等)才能为每个进程分配和释放相关内存资源。所以内存管理模块进程管理模块强耦合的。
  • 而现在有了进程地址空间,内存管理只需要知道哪些内存区域(page)是被页表映射的(已使用),哪些是没有被页表映射的(未使用),不需要知道每个进程的生命状态。当进程管理想要申请内存资源时,让内存管理通过页表建立映射即可;想要释放内存资源时,通过页表取消映射即可。解耦的本质也就是减少模块与模块之间的关联性,所以就是将内存管理模块进程管理模块进行解耦了。

在物理内存中,是否可以对未来的数据进行任意位置的加载?

可以。

物理内存的分配可以和进程的管理做到没有关系。

在 C/C++ 语言上 new/malloc 出一块新的空间时,本质是在哪里申请空间的呢?

 虚拟地址空间。

如果申请了空间,但不立马使用这块空间, 是不是对空间造成了浪费呢?

是的。

所以本质上,(因为有地址空间的存在,所以上层申请空间,缺页中断:其实是在地址空间上申请的,物理内存可以甚至一个字节都不给。而当我们真正进行对物理地址空间访问时,才执行内存的相关管理算法来申请内存,构建页表映射关系)然后再进行内存的访问。

括号内的部分完全由 OS 自动完成,用户,包括进程完全 0 感知。

  • 在分配内存时采用延迟分配的策略来提高整机的效率。(几乎内存的有效使用率是 100%)

(3)通过页表映射到不同的有序区域来实现进程的独立性。
  • 在进程的视角,所有的内存分别都可以是有序的。
  • 让每个进程以同样的方式来看待代码和数据。(这样对于进程的设计是非常好的)

可执行程序,在磁盘中是被划分成一个个的区域存储起来的(比如代码 .txt、已初始化数据 .data、未初始化数据 .bss 等等)。

因为可执行程序形成时,有一个链接的过程,会把用户代码和库的代码合并在一起,把用户数据和库的数据合并在一起。否则可执行程序的代码和数据如果是混着存放在一起的,会导致链接过程变得很复杂。所以进程的地址空间才有了区域划分这样的概念,方便进程找到代码和数据。

分析:

如图,代码被零散的加载到了内存的各个位置。如果直接让进程去找到代码是非常困难的,尤其是找到代码的起始和结束位置。所以我们在进程的地址空间中划分出一个个区域,再通过页表把内存中的各个位置的代码给整合到一起,使代码的物理地址变成线性的虚拟地址了。然后进程通过其对应地址空间中的代码区(区域中虚拟地址是连续的)可以很方便的找到代码。同时 CPU 也方便执行代码(虚拟地址是连续的,这样 PC 指针才能进行加 1 的操作,得到下一条指今的地址,CPU 才能从上到下顺序执行指令)。

  • 地址空间 + 页表的存在可以将内存分布有序化
  • 结合(2),进程要访问物理内存中的数据和代码,可能目前并没有在物理内存中。同样的,也可以让不同的进程映射到不同的物理内存,便很容易做到进程独立性的实现。
  • 进程的独立性可以通过进程空间 + 页表的方式实现。

好处

  • 不用在物理内存中找一块连续的区域。
  • 站在进程的角度,所有进程的代码(二进制指令)存放的区域,虚拟地址是连续的,可以被顺序执行。(即使物理内存上有可能不连续)

七、重新理解什么是挂起

进程和程序有什么区别呢?

  • 加载的本质就是创建进程。
那么是否必须立刻将所有程序的代码和数据加载到内存中,并创建内核数据结构建立映射关系?

不是。

如果在最极端的情况下,只有内核结构被创建出来了(新建状态)。当真正被调度/执行代码时,才把外设加载内存里,然后再执行代码。

  • 理论上,可以实现对程序的分批加载。
如果物理内存只有 4G,有一个游戏 16G,能否运行?

可以运行。

CPU 无论运行多大的程序,都需要从头到尾执行每一行指令。即使物理内存有 32G,也不会一次性把 16G 的程序加载进来(因为内存资源还需要分配给其它进程),而是采用延时加载比如先加载 200M 进来,执行完了再覆盖式的加载 200M 进来,然后再执行。所以如果物理内存比较小,用户可能会感到游戏卡顿。

  • 加载的本质就是换入的过程。
既然可以分批加载,那可以分批换出吗?

可以。

甚至这个进程短时间不会再被执行,比如挂起 / 阻塞。

  • 也就相当于其对应的代码和数据占着空间却不创造价值,所以 OS 就可以将它换出,一旦被换出,那么此时这个进程就叫被挂起

八、Linux2.6 内核进程调度队列

1、Linux2.6 内核中进程队列的数据结构


2、一个 CPU 拥有一个 runqueue

如果有多个 CPU 就要考虑进程个数的负载均衡问题。

3、优先级

  • 普通优先级:100~139(我们都是普通的优先级,想想 nice 值的取值范围,可与之对应)
  • 实时优先级:0~99(不关心)

4、活动队列

  • 时间片还没有结束的所有进程都按照优先级放在该队列。
  • nr_active:总共有多少个运行状态的进程。
  • queue[140]:一个元素就是一个进程队列,相同优先级的进程按照 FIFO 规则进行排队调度,所以数组下标就是优先级。
  • 从该结构中,选择一个最合适的进程,过程怎么回事的呢?
  1. 从 0 下表开始遍历 queue[140]。
  2. 找到第一个非空队列,该队列必定为优先级最高的队列。
  3. 拿到选中队列的第一个进程,开始运行,调度完成。
  4. 遍历 queue[140] 时间复杂度是常数,但还是太低效了。
  • bitmap[5]:一共 140 个优先级,140 个进程队列,为了提高查找非空队列的效率,就可以用 5*32 个比特位表示队列是否为空,这样便可以大大提高查找效率。

5、过期队列

  • 过期队列和活动队列结构一模一样。
  • 过期队列上放置的进程,都是时间片耗尽的进程。
  • 当活动队列上的进程都被处理完毕之后,对过期队列的进程进行时间片重新计算。

6、active 指针和 expired 指针

  • active 指针永远指向活动队列。
  • expired 指针永远指向过期队列。
  • 可是活动队列上的进程会越来越少,过期队列上的进程会越来越多,因为进程时间片到期时一直都存在的。
  • 但在合适的时候,只要能够交换 active 指针和 expired 指针的内容,就相当于有具有了一批新的活动进程。

7、总结

在系统当中查找一个最合适调度的进程的时间复杂度是一个常数,不随着进程增多而导致时间成本增加,我们称之为进程调度 O(1) 算法。
【Linux】Linux 的进程优先级 NI 和 PR-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/258676.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习基础】决策树(Decision Tree)

&#x1f680;个人主页&#xff1a;为梦而生~ 关注我一起学习吧&#xff01; &#x1f4a1;专栏&#xff1a;机器学习 欢迎订阅&#xff01;后面的内容会越来越有意思~ ⭐特别提醒&#xff1a;针对机器学习&#xff0c;特别开始专栏&#xff1a;机器学习python实战 欢迎订阅&am…

LEETCODE 164. 破解闯关密码

class Solution { public:string crackPassword(vector<int>& password) {vector<string> password_str;for(int i0;i<password.size();i){password_str.push_back(to_string(password[i]));}//希尔排序int gappassword.size()/2;while(gap>0){for(int i…

【机器学习案例3】从科学论文图片中提取标题、作者和摘要【含源码】

在这个项目中,我的目标是从科学论文图片中提取某些部分(标题、作者和摘要)。预期提取部分是科学论文中常见的部分,例如标题、摘要和作者。输入与最终结果。我的输入是将第一页纸转换成图像。最终结果是一个 txt 文件,其中包含标题、作者和摘要部分,如下图1和图2所示。我将…

线索化二叉树(先序,中序,后序)+线索化二叉树的遍历【java详解】

目录 线索化二叉树的基本介绍&#xff1a; 举个栗子&#xff1a; 二叉树的中序线索化&#xff1a; 创建HeroNode类&#xff0c;表示节点信息&#xff1a; 编写中序线索化方法代码&#xff1a; 中序线索化遍历代码&#xff1a; 测试代码&#xff1a; 测试结果&#xff1a…

CCF编程能力等级认证GESP—C++6级—20231209

CCF编程能力等级认证GESP—C6级—20231209 单选题&#xff08;每题 2 分&#xff0c;共 30 分&#xff09;判断题&#xff08;每题 2 分&#xff0c;共 20 分&#xff09;编程题 (每题 25 分&#xff0c;共 50 分)闯关游戏工作沟通 答案及解析单选题判断题编程题1编程题2 单选题…

sql语句学习(一)--查询

【有道云笔记】基本sql语句2—查询基础 数据库表结构 DROP TABLE IF EXISTS class; CREATE TABLE class (id int(11) NOT NULL AUTO_INCREMENT,class_num varchar(11) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL COMMENT 班级号,class_name varchar(255) CHARACTE…

C++ STL->list模拟实现

theme: smartblue list list文档 list是可以在常数范围内在任意位置进行插入和删除的序列式容器&#xff0c;并且该容器可以前后双向迭代。list的底层是双向链表结构&#xff0c;双向链表中每个元素存储在互不相关的独立节点中&#xff0c;在节点中通过指针指向 其前一个元素…

理解并实现OpenCV中的图像平滑技术

导读 图像模糊&#xff08;也称为图像平滑&#xff09;是计算机视觉和图像处理中的基本操作之一。模糊图像通常是噪声减少、边缘检测和特征提取等应用的第一步。在本博客中&#xff0c;我们将重点介绍如何使用Python中的OpenCV库应用多种模糊技术。 理论概述&#xff1a; 基本…

第73左侧菜单实现

layout下面新建menu layout index.vue导入menu import Menu from /views/layout/menu菜单实现&#xff1a; <template><el-menuactive-text-color"#ffd04b"background-color"#2d3a4b"class"el-menu-vertical-demo"default-active&quo…

Linux:docker的Portainer部署

官网 Portainer: Container Management Software for Kubernetes and Dockerhttps://www.portainer.io/ 1.下载 portainer也是一个docker的镜像直接下载即可 docker pull portainer/portainer 2.运行 直接运行镜像即可直接使用 docker run -d -p 8000:8000 -p 9000:9000 -…

网络安全防御保护 Day5

今天的任务如下 要求一的解决方法&#xff1a; 前面这些都是在防火墙FW1上的配置。 首先创建电信的NAT策略 这里新建转换后的地址池 移动同理&#xff0c;不过地址池不一样 要求二的解决方法&#xff1a; 切换至服务器映射选项&#xff0c;点击新建&#xff0c;配置外网通过…

Elasticsearch:适用于 iOS 和 Android 本机应用程序的 Elastic APM

作者&#xff1a;来自 Elastic Akhilesh Pokhariyal, Cesar Munoz, Bryce Buchanan 适用于本机应用程序的 Elastic APM 提供传出 HTTP 请求和视图加载的自动检测&#xff0c;捕获自定义事件、错误和崩溃&#xff0c;并包括用于数据分析和故障排除目的的预构建仪表板。 适用于 …

第13讲我创建的投票列表实现

新建我创建的投票页面 {"path": "pages/createVoteList/createVoteList","style": {"navigationBarTitleText": "我创建的投票"}}个人中心页面&#xff0c;加下 点击 “我创建的投票”跳转列表页面 goVoteList:function(){u…

Rust基础拾遗--核心功能

Rust基础拾遗 前言1.所有权与移动1.1 所有权1.2 移动1.2.1 更多移动类操作1.2.2 移动与控制流1.2.3 移动与索引内容 1.3 Copy 类型&#xff1a;关于移动的例外情况1.4 Rc 与 Arc&#xff1a;共享所有权 2.引用3.特型与泛型简介3.1 使用特型3.2 特型对象3.3 泛型函数与类型参数 …

15 ABC基于状态机的按键消抖原理与状态转移图

1. 基于状态机的按键消抖 1.1 什么是按键&#xff1f; 从按键结构图10-1可知&#xff0c;按键按下时&#xff0c;接点&#xff08;端子&#xff09;与导线接通&#xff0c;松开时&#xff0c;由于弹簧的反作用力&#xff0c;接点&#xff08;端子&#xff09;与导线断开。 从…

人工智能时代

一、人工智能发展历史:从概念到现实 人工智能(Artificial Intelligence,简称AI)是计算机科学领域中一门旨在构建能够执行人类智能任务的系统的分支。其发展历程充满曲折,从概念的提出到如今的广泛应用,是技术、理论和实践相互交织的产物。 1. 起源(20世纪中期) 人工智…

深度学习技巧应用36-深度学习模型训练中的超参数调优指南大全,总结相关问题与答案

大家好,我是微学AI,今天给大家介绍一下深度学习技巧应用36-深度学习模型训练中的超参数调优指南大全,总结相关问题与答案。深度学习模型训练中的调优指南大全概括了数据预处理、模型架构设计、超参数优化、正则化策略和训练技巧等多个关键方面,以提升模型性能和泛化能力。 …

AJAX——接口文档

1 接口文档 接口文档&#xff1a;描述接口的文章 接口&#xff1a;使用AJAX和服务器通讯时&#xff0c;使用的URL&#xff0c;请求方法&#xff0c;以及参数 传送门&#xff1a;AJAX阶段接口文档 <!DOCTYPE html> <html lang"en"><head><meta c…

mysql5.6安装---windows版本

安装包下载 链接&#xff1a;https://pan.baidu.com/s/1L4ONMw-40HhAeWrE6kluXQ 提取码&#xff1a;977q 安装视频 1.解压完成之后将其放到你喜欢的地址当中去&#xff0c;这里我默认放在了D盘&#xff0c;这是我的根目录 2.配置环境变量 我的电脑->属性->高级->环境…

租用一个服务器需要多少钱?2024阿里云新版报价

2024年最新阿里云服务器租用费用优惠价格表&#xff0c;轻量2核2G3M带宽轻量服务器一年61元&#xff0c;折合5元1个月&#xff0c;新老用户同享99元一年服务器&#xff0c;2核4G5M服务器ECS优惠价199元一年&#xff0c;2核4G4M轻量服务器165元一年&#xff0c;2核4G服务器30元3…