图解Linux内核(基于6.x):解读Linux内存反向映射之匿名映射

文章目录

  • 📑前言
  • 一、匿名映射的mapping
  • 二、推荐阅读
    • 2.1 一图速览
    • 2.2 内容简介

image.png

📑前言

内存映射中,我们经常讨论的是由虚拟内存定位物理内存(也就是folio或者page),实际上在很多场景中(比如内存回收),会涉及反向的操作,也就是反向映射。所谓反向映射,就是给定一个folio(page),将映射它的PTE(页表项)找出来。接下来我们来详细分析一下它的原理吧(本文仅分析匿名映射部分)。

一、匿名映射的mapping

匿名映射中,mapping可以用来找到anon_vma,anon_vma关联vma,通过folio和vma,就可以得出映射的虚拟地址address,最终由address和vma定位PTE,如图1所示。


图1.匿名folio定位address示意图
图1中基本都是直来直去的关系,除了anon_vma和vma,它们实际上是多对多的关系,由anon_vma_chain结构体(以下简称avc)辅助实现。
我们从mmap返回,vma还没有映射任何物理页的情景说起。
第一次访问vma区间的地址,导致缺页异常。内核调用do_anonymous_page,申请一页内存,完成映射。
由于这是vma区间内的第一次缺页异常,vma相关的anon_vma和avc还不存在,处理异常的过程中会准备好它们,然后调用page_add_new_anon_rmap为该page(folio)建立反向映射,将anon_vma赋值给mapping字段。关键代码片段如下。

struct anon_vma *anon_vma = vma->anon_vma;anon_vma = (void *) anon_vma + PAGE_MAPPING_ANON; 
WRITE_ONCE(page->mapping, (struct address_space *) anon_vma); 
page->index = linear_page_index(vma, address);

代码中的address就是映射的虚拟地址,page->index实际上是page offset,该page在文件中的偏移量,也就是映射的是文件的第几页,计算代码如下。

pgoff = (address - vma->vm_start) >> PAGE_SHIFT; 
pgoff += vma->vm_pgoff;  
return pgoff;

vma->vm_pgoff是vma的起始地址对应的文件的page offset。
匿名映射没有对应文件,它的vma->vm_pgoff等于vma->vm_start >> PAGE_SHIFT。
这里需要明确一下,从内核的角度看,我们以MAP_ANONYMOUS调用mmap等完成的映射并不一定是匿名映射。置位MAP_SHARED的情况下,内核会生成“假”(pseudo)文件与之对应(shmem_zero_setup),就不是匿名的了,vma->vm_pgoff等于0。只有MAP_ANONYMOUS和 MAP_PRIVATE同时置位的情况下才是内核承认的匿名映射。
这里有以下两点需要注意。

  1. 整个vma可能会有多个页,它们的mapping字段是相等的,不等的是index字段。
  2. anon_vma和vma的关系并不依赖page,哪怕是vma映射中的其中一部分page改变映射了,从anon_vma到vma的路径并不会变。

单个进程的反向映射建立了,如图2所示。anon_vma到vma实际上是通过区间树(interval tree)实现的,为了看起来简洁些图中使用链表代替。


图2.匿名映射单个进程反向映射示意图
接下来考虑创建子进程的场景。在新进程创建的过程中,有些情况会调用dup_mmap复制原进程的内存空间,dup_mmap会复制vma,然后调用anon_vma_fork。anon_vma_fork会为新进程申请anon_vma,建立反向映射,完成后如图3所示。

图3.创建子进程后匿名映射示意图
新进程创建完成后,从page->mapping出发,可以遍历所有映射它的PTE了。
再考虑COW的场景,缺页异常申请新的一页,将原页的内存复制到新页中,然后使用新页更新映射,根据前文中“需要注意的第2点”可以得出图4中的结果。

图4.COW发生后匿名映射示意图
可以看到,从原页依然可以遍历到没有映射它的vma(请仔细理解anon_vma和vma的关系并不依赖page),从新页出发倒是没有这个烦恼。
我们肯定不希望操作原页的时候会影响到没有映射它的vma,所以得到某个vma后,需要做进一步检查,原理是拿原页的pfn区间(一个folio可能包含多个连续的物理页)和vma映射的物理页的pfn做比较,落在区间内才是有效的,由check_pte实现。
有了以上的铺垫,我们可以分析匿名页的反向映射了,由rmap_walk_anon实现,核心逻辑如下。

void rmap_walk_anon(struct folio *folio,  struct rmap_walk_control *rwc, bool locked)
{  struct anon_vma *anon_vma;  pgoff_t pgoff_start, pgoff_end;  struct anon_vma_chain *avc;if (locked) {    anon_vma = folio_anon_vma(folio);    //1  } else {    anon_vma = rmap_walk_anon_lock(folio, rwc);  }pgoff_start = folio_pgoff(folio);    //2  pgoff_end = pgoff_start + folio_nr_pages(folio) - 1;  anon_vma_interval_tree_foreach(avc, &anon_vma->rb_root,pgoff_start, pgoff_end) {struct vm_area_struct *vma = avc->vma;unsigned long address = vma_address(&folio->page, vma);    //3if (rwc->invalid_vma && rwc->invalid_vma(vma, rwc->arg))    //4      continue;    if (!rwc->rmap_one(folio, vma, address, rwc->arg))      break;    if (rwc->done && rwc->done(folio))      break;  }if (!locked)    anon_vma_unlock_read(anon_vma);
}

第1步,获得anon_vma,是给anon_vma->mapping赋值(见前文代码片段)的反过程。
第2步,调用folio_pgoff得到pgoff_start,然后根据folio的页数得到pgoff_end,用作遍历interval tree的时候筛选vma。folio_pgoff返回folio->index,赋值过程也见前文代码片段。
第3步,根据folio和vma计算得到虚拟地址,不考虑多页的情况下,计算过程如下。

pgoff_in_vma = page->index - vma->vm_pgoff
address = vma->vm_start + (pgoff_in_vma << PAGE_SHIFT)

这个计算过程对匿名映射和文件映射都适用。vma->vm_pgoff是vma基于文件的page offset,vma->vm_start是vma区间的其实虚拟地址,加上当前页在vma内的offset就可以得到虚拟地址了。匿名映射没有文件,vma->vm_pgoff等于vma->vm_start >> PAGE_SHIFT,用来做计算也是没有问题的。
这里anon_vma_interval_tree_foreach会筛选树上符合pgoff_start, pgoff_end区间的vma,难道anon_vma上的vma可以有不同的pgoff区间吗?答案是肯定的,为了简化问题,我们之前回避了anon_vma的重复利用问题,同一个进程符合条件的vma是可以共享anon_vma的(find_mergeable_anon_vma)。从这个角度看,vma->vm_pgoff等于vma->vm_start >> PAGE_SHIFT是合理的,同一个进程不同的vma计算得到的vma->vm_pgoff也不同。
第4步,调用rmap_walk_control(代码中简称rwc)提供的回调函数。rmap_walk_anon提供了遍历vma的方法,至于对每个vma做什么,是由调用它的函数决定的,比如folio_referenced函数希望遍历PTE,查看folio被不同PTE访问的次数,它的rwc定义如下。

struct folio_referenced_arg pra = {.mapcount = folio_mapcount(folio),.memcg = memcg,
};
struct rmap_walk_control rwc = {.rmap_one = folio_referenced_one,.arg = (void *)&pra,.anon_lock = folio_lock_anon_vma_read,.try_lock = true,
};

另外,rmap_walk_anon给出了vma、address和folio,但没有得到PTE,这个任务只能由rwc的回调函数自行完成,不过内核提供了page_vma_mapped_walk函数辅助完成该任务。

二、推荐阅读

2.1 一图速览


《图解Linux内核(基于6.x)》
京东:https://item.jd.com/14577130.html

2.2 内容简介

  • 全书共五篇,以从易到难的顺序详细剖析了Linux内核开发的核心技术。“知识储备篇”介绍了Linux的数据结构、中断处理、内核同步和时间计算等内容,这些是理解后续章节的前提;之后通过“内存管理篇”“文件系统篇”“进程管理篇”详细介绍了Linux的三大核心模块;最后的“综合应用篇”则融合了前面诸多模块知识展示了Linux内核开发在操作系统、智能设备、驱动、通信、芯片、云计算和人工智能等热点领域的应用。书中的重点、难点均配有图表、代码和实战案例,力求直观、清晰。
  • 学习本书的读者需要熟悉C语言,建议对Linux内核有一定了解。推荐初学者按照本书的编排顺序阅读,而熟悉Linux内核的读者可以跳过知识储备篇,直接从三大核心模块篇进行阅读。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/354025.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MATLAB直方图中bin中心与bin边界之间的转换

要将 bin 中心转换为 bin 边界&#xff0c;请计算 centers 中各连续值之间的中点。 d diff(centers)/2; edges [centers(1)-d(1), centers(1:end-1)d, centers(end)d(end)];要将 bin 边界转换为bin 中心 bincenters binedges(1:end-1)diff(binedges)/2;

森林之下延迟高如何处理 森林之下联机卡顿的解决方法

森林之下是一款结合了农场模拟、恐怖生存的游戏&#xff0c;玩家需要管理一个被“闹鬼的树林”包围的农场&#xff0c;种植农作物&#xff0c;拯救、驯服、饲养动物&#xff0c;探索被诅咒的森林&#xff0c;并且收集物品来破除诅咒。这款游戏目前已经开放了demo&#xff0c;不…

创新入门 | 病毒循环Viral Loop是什么?为何能实现指数增长

今天&#xff0c;很多高速增长的成功创业公司都在采用”病毒循环“的策略去快速传播、并扩大用户基础。究竟什么是“病毒循环”&#xff1f;初创公司的创始人为何需要重视这个策略&#xff1f;这篇文章中将会一一解答与病毒循环有关的各种问题。 一、什么是病毒循环&#xff08…

【计算机毕业设计】211校园约拍微信小程序

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

增强大型语言模型(LLM)可访问性:深入探究在单块AMD GPU上通过QLoRA微调Llama 2的过程

Enhancing LLM Accessibility: A Deep Dive into QLoRA Through Fine-tuning Llama 2 on a single AMD GPU — ROCm Blogs 基于之前的博客《使用LoRA微调Llama 2》的内容&#xff0c;我们深入研究了一种称为量化低秩调整&#xff08;QLoRA&#xff09;的参数高效微调&#xff0…

Python 基础:文件

目录 一、从文件中读取数据1.1 读取整个文件1.2 逐行读取 二、写入文件2.1 写入空文件2.2 写入多行2.3 附加到文件 遇到看不明白的地方&#xff0c;欢迎在评论中留言呐&#xff0c;一起讨论&#xff0c;一起进步&#xff01; 本文参考&#xff1a;《Python编程&#xff1a;从入…

【植物大战僵尸杂交版】致敬传奇游戏玩家——一个普通人的六年坚持

目录 缘起 波澜 凌云 缘起 曾​​​​​​佳伟是《植物大战僵尸》的忠实粉丝&#xff0c;这款游戏给了他很多乐趣&#xff0c;也成为了他度过困难时期的精神支柱。他决定制作杂交版&#xff0c;部分原因是出于对原版游戏的热爱和致敬。 六年前&#xff0c;出于对一些pvz续作…

[AIGC] MyBatis-Plus中如何使用XML进行CRUD操作?

在MyBatis-Plus中&#xff0c;我们可以非常方便地使用XML进行CRUD&#xff08;创建、读取、更新、删除&#xff09;操作。以下是一些基本步骤和示例&#xff0c;希望能帮助到还在初学阶段的您。 文章目录 1. 创建Mapper接口2. 创建Mapper XML 文件3. 调用Mapper方法 1. 创建Ma…

SpringBoot实现的大文件上传

前言 大文件分片上传和断点续传是为了解决在网络传输过程中可能遇到的问题&#xff0c;以提高文件传输的效率和稳定性。 首先&#xff0c;大文件分片上传是将大文件分割成较小的片段进行上传。这样做的好处是可以减少单个文件的传输时间&#xff0c;因为较小的文件片段更容易快…

微博舆情分析系统可以继续完善的基于python 前端vue

微博舆情分析系统可以继续完善的&#xff0c;前后端分离&#xff0c;前端基于vue 后端基于python的flask可以说是非常的简洁&#xff0c;支持实时更新数据。界面如图 主要工作点体现在后端实时更新数据跟数据的处理方面上&#xff0c;后续有空会用hadoop来处理海量数据真…

Clickhouse监控_监控的指标以及Grafana配置Clickhouse指标异常时触发报警

使用PrometheusGrafana来监控Clickhouse服务和性能指标 Clickhouse监控指标的官方文档https://clickhouse.com/docs/zh/operations/monitoring 建议使用PrometheusGrafana组合监控Clickhouse服务和性能指标&#xff0c;数据流向&#xff1a;Prometheus的clickhouse_exporter组件…

文件扫描工具都有哪些?职场大佬都在用的文本提取工具大盘点~

回想起刚毕业初入职场那阵子&#xff0c;领导让帮忙把纸质文件扫描提取为文本时&#xff0c;还只会傻乎乎地一点点操作&#xff0c;属实是费劲得很&#xff01; 好在后面受朋友安利&#xff0c;找到了4个能够快速实现文件扫描文字提取的方法&#xff0c;这才让我的办公效率蹭蹭…

JUC并发编程第十四章——线程安全集合类

1 并发集合 1.1 线程安全集合分类 a.遗留的线程安全集合 遗留的线程安全集合如 Hashtable &#xff0c; Vector b.使用 Collections 装饰的线程安全集合 使用 Collections 装饰的线程安全集合&#xff0c;如&#xff1a; Collections.synchronizedCollectionCollections.sy…

【FreeRTOS】估算栈的大小

参考《FreeRTOS入门与工程实践(基于DshanMCU-103).pdf》 目录 估算栈的大小回顾简介计算说明估计函数用到的栈有多大合计 估算栈的大小 回顾 上一篇文章链接&#xff1a;http://t.csdnimg.cn/Cc8b4 传送门: 上一篇文章 上一篇文章创建的三个任务 /* 创建任务&#xff1a;声 *…

一个新的剪辑拼接图片和视频类APP在测试阶段需要测试内容,以iPhone APP为例:

1.UI参照原型图和设计稿 如有改动&#xff0c;需及时沟通 2.iPad转屏、不同iPhone和iPad机型测试 3.黑夜白天模式 2.各功能模块流程需要测试跑通 3.订阅支付模块 a. UI设计是否和设计稿一致 b.涉及订阅的位置都要测试 c.免费试用是否显示&#xff1b;试用结束后&#xff0c…

【Gitlab】访问默认PostgreSQL数据库

本地访问PostgreSQL gitlab有可以直接访问内部PostgreSQL的命令 sudo gitlab-rails dbconsole # 或者 sudo gitlab-psql -d gitlabhq_production效果截图 常用SQL # 查看用户状态 select id,name,email,state,last_sign_in_at,updated_at,last_credential_check_at,last_act…

C语言学习之路(黑马)

文章目录 环境搭建HelloWorld代码编写代码分析执行流程 核心语法注释单行注释多行注释注释示例 关键字常量变量计算机进制数据类型标识符键盘录入 运算符算术运算符比较运算符赋值运算符自增减运算符逻辑运算符三元运算符逗号运算符运算符的优先级 流程控制语句顺序结构分支结构…

配置Linux DNS服务器作为自己的windows 的 DNS服务器和 配置遇到的问题

安装DNS 库 和 DNS工具&#xff1a; # bind 是用于创建 dns服务的&#xff0c; bind-utils是用于测试DNS服务的工具 yum -y install bind bind-utils配置主配置文件&#xff1a; # 下载好后就已经有DNS服务&#xff0c;但是需要你自己去配置DNS服务信息# 配置主配置文件 [rootl…

ChatGPT 提示词技巧一本速通

目录 一、基本术语 二、提示词设计的基本原则 三、书写技巧 2.1 赋予角色 2.2 使用分隔符 2.2 结构化输出 2.3 指定步骤 2.4 提供示例 2.5 指定长度 2.6 使用或引用参考文本 2.7 提示模型进行自我判断 2.8 思考问题的解决过程 ​编辑 2.10 询问是否有遗漏 2.11 …

Spring源码-xxxAware实现类和BeanPostProcessor接口调用过程

xxxAware实现类作用 以ApplicationContextAware接口为例 ApplicationContextAware的作用是可以方便获取Spring容器ApplicationContext&#xff0c;从而可以获取容器内的Bean package org.springframework.context;import org.springframework.beans.BeansException; import or…