CPU性能优化--微操作

x86 架构处理器复杂CISC指令转为简单RISC微操作这样最大优势微操作可以乱序执行一条简单相加指令--比如ADDEAX, EBX产生一个微操作很多复杂指令--比如ADD, EAX 可能会产生两个微操作一个将数据内存读取临时寄存器另一个临时寄存器内容EAX相加指令ADD[MEM1], EAX可能会产生三个微操作一个内存读取数据另一个执行加法操作最有一个结果存回内存需要注意指令间关系及其转化微操作方式不同代系CPU之间差别非常大

CISC转化RISC相反微操作也可以融合现代Intel CPU两种融合类型

1 微融合 相同机器指令转化而来微操作微融合只能应用两种类型内存操作/操作修改操作

2 宏融合 解码器可以算术或者逻辑指令后续条件跳转指令融合一个单独计算加分跳转微操作

微融合宏融合能够节省流水线解码退休所有阶段带宽融合操作顺序重排缓冲区ROB共享一个单独条目融合微操作只用一个条目ROB将会被扩容这个单独ROB条目代表两个操作这两个操作需要两个不同执行单元处理融合ROB条目会被分发两个不同执行单元

linux perf工具用户可以通过如下命令互殴去负载程序微操作发射执行退休数量

x86微架构指令时延吞吐量端口使用方法对应微操作数量都可以uops.info网站找到

4.5 流水线槽位

一个流水线槽位代表处理一个微操作所需要硬件资源可以每个时钟周期执行4微操作几乎所有现代x86 CPU流水线都是发射途中6连续时钟周期只有一般槽位利用了微架构角度来看执行此类代码效率只有50%

流水线槽位自顶向下微架构分析核心指标之一例如前端绑定后端绑定 指标闲置流水线槽位百分比表示

4.6 核时钟周期和参考时钟周期

大部分CPU使用时钟信号同步他们顺序操作时钟信号外部发生器产生发生器每秒提供固定数量脉冲时钟脉冲频率决定了CPU执行指令速率因此CPU时钟越快每秒执行指令越多

频率 = 时钟计数/时间

现代CPU都没有固定运行频率使用动态频率调整技术Intel称为Turbo BoostSkylake i7-6000处理器一个实验CPU基础频率3.4GHz

指标perf-cycles统计时钟周期数量不受动态频率调整影响外部时钟设置时候频率100MHz, 如果我们通过时钟倍频器调整可以获得处理器基础频率Skylake i7-6000处理器时钟倍频倍数34这意味着对于每一个外部脉冲CPU基础频率运行执行34内部时钟周期

4.7 缓存未命中

某层级任何缓存命中都会更高层缓存或者DRAM所承载意味着内存访问类型时延会有明显增加3给出了各种内存子系统组建典型时延数据缓存未命中非常影响性能访问最后一层缓存LLC发生未命中直接访问主存DRAM时候Intel内存时延价差工具MLC测量内存时延带宽以及系统增加家在动作 他们如何变化工具

内存子系统组件

时延

L1缓存

4时钟周期

L2缓存

10-25时钟周期

L3缓存

40时钟周期

主存

200多个时钟周期

指令数据都可以发生缓存命中根据TMA分析方法指令缓存未命中归类前端停滞数据缓存未命中归类后端停滞获取指令发生指令缓存未命中会被归类前端问题相应请求数据数据缓存并没有找到就是后端问题

4.8 分支预测错误

现代CPU试着预测分支跳转指令结果例如处理器看到如下代码

dec eax

jz .zero

其中指令jz分支跳转指令为了提高性能投机执行这个分支如果预测错误然后CPU需要增加撤销它最近投机执行所有工作通常会有10-20时钟周期损失

perf stat -s branches, branch-missees -- a.exe

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/477005.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据基于Spring Boot的化妆品推荐系统的设计与实现

摘 要 随着大数据时代的到来,人们对于个性化服务的需求越来越高。化妆品推荐系统作为一个认知智能模型段,在为消费者提供更好的购物体验方面发挥了重要作用。本研究基于大数据技术设计了一个高效准确的化妆品推荐系统。通过对海量数据的分析和处理&…

NUXT3学习日记四(路由中间件、导航守卫)

前言 在 Nuxt 3 中,中间件(Middleware)是用于在页面渲染之前或导航发生之前执行的函数。它们允许你在路由切换时执行逻辑,像是身份验证、重定向、权限控制、数据预加载等任务。中间件可以被全局使用,也可以只在特定页…

在Unity环境中读取Excel配置文件(入门)

使用Excel作为配置的优势 使用Excel作为配置文件有相对普通的文本文档/json等类型的配置文件有一个更好的优点,更易于编辑,更易读.譬如上面的例子,我可以制作一个人员名单,可以记录它们的姓名,年龄等信息,每一行就是一个对象,该表就是一个List. 环境准备 GitHub - ExcelDataR…

Maven maven项目构建的生命周期 Maven安装配置 IDEA 配置 Maven

一,Maven的概述 Maven的作用:专门用于管理和构建Java项目的工具,它的主要功能有: 提供了一套标准化的项目结构提供了一套标准化的构建流程(编译,测试,打包,发布……)提…

VM虚拟机装MAC后无法联网,如何解决?

✨在vm虚拟机上,给虚拟机MacOS设置网络适配器。选择NAT模式用于共享主机的IP地址 ✨在MacOS设置中设置网络 以太网 使用DHCP ✨回到本地电脑上,打开 服务,找到VMware DHCP和VMware NAT,把这两个服务打开,专一般问题就…

day06(单片机高级)PCB设计

目录 PCB设计 PCB设计流程 元器件符号设计 原理图设计 元器件封装设计 元器件库使用 PCB设计 目的:学习从画原理图到PCB设计的整个流程 PCB设计流程 元器件符号设计 元器件符号:这是电子元器件的图形表示,用于在原理图中表示特定的元器件。例…

向量数据库FAISS之一:官方简单教程

1.安装 1.conda安装 # CPU-only version --> Linux (x86_64 and arm64), OSX (arm64 only), and Windows (x86_64) $ conda install -c pytorch faiss-cpu1.8.0# GPU(CPU) version --> Linux (x86_64 only) for CUDA 11.4 and 12.1 $ conda install -c pytorch -c nvid…

VMware Workstation 17.6.1

概述 目前 VMware Workstation Pro 发布了最新版 v17.6.1: 本月11号官宣:针对所有人免费提供,包括商业、教育和个人用户。 使用说明 软件安装 获取安装包后,双击默认安装即可: 一路单击下一步按钮: 等待…

java实现小程序接口返回Base64图片

文章目录 引言I java 接口返回Base64图片接口设计获取验证码图片-base64字符串获取验证码图片-二进制流arraybufferII 小程序端代码过期代码: 显示文件流图片(arraybuffer)知识扩展:微信小程序下载后端返回的文件流引言 场景: 图形验证码 背景: 接口返回arraybuffer的格式…

transformer.js(一):这个前端大模型运行框架的可运行环境、使用方式、代码示例以及适合与不适合的场景

随着大模型的广泛应用,越来越多的开发者希望在前端直接运行机器学习模型,从而减少对后端的依赖,并提升用户体验。Transformer.js 是一个专为前端环境设计的框架,它支持运行基于 Transformer 架构的深度学习模型,尤其是…

xiaolin coding 图解网络笔记——HTTP篇

1. HTTP 是什么? HTTP 是超文本传输协议(HyperText Transfer Protocol),一个用在计算机世界里专门在【两点】之间【传输】文字、图片、音频、视频等【超文本】数据的【约定和规范】。 2. HTTP 常见的状态码有哪些? …

23种设计模式-模板方法(Template Method)设计模式

文章目录 一.什么是模板方法模式?二.模板方法模式的特点三.模板方法模式的结构四.模板方法模式的应用场景五.模板方法模式的优缺点六.模板方法模式的C实现七.模板方法模式的JAVA实现八.代码解析九.总结 类图: 模板方法设计模式类图 一.什么是模板方法模…

力扣 LeetCode 235. 二叉搜索树的最近公共祖先(Day10:二叉树)

解题思路: 方法一:递归 递归法没有中的逻辑 class Solution {public TreeNode lowestCommonAncestor(TreeNode root, TreeNode p, TreeNode q) {return recur(root, p, q);}public TreeNode recur(TreeNode root, TreeNode p, TreeNode q) {if (root…

Python数据结构day2

一、链表 1.1目的 解决顺序表存储数据有上限,并且插入和删除操作效率低的问题 1.2概念 链表:链式存储的线性表,使用随机物理内存存储逻辑上连续的数据 链表的组成:由一个个结点组成 结点:由数据域和链接域组成&a…

Java-06 深入浅出 MyBatis - 一对一模型 SqlMapConfig 与 Mapper 详细讲解测试

点一下关注吧!!!非常感谢!!持续更新!!! 大数据篇正在更新!https://blog.csdn.net/w776341482/category_12713819.html 目前已经更新到了: MyBatis&#xff…

Flink Lookup Join(维表 Join)

Lookup Join 定义(支持 Batch\Streaming) Lookup Join 其实就是维表 Join,比如拿离线数仓来说,常常会有用户画像,设备画像等数据,而对应到实时数仓场景中,这种实时获取外部缓存的 Join 就叫做维…

LeetCode 101题集(随时更新)

题集来源:GitHub - changgyhub/leetcode_101: LeetCode 101:力扣刷题指南 使用C完成相关题目,以训练笔试 贪心 采用贪心的策略,保证每次操作都是局部最优的,从而使最后得到的结果是全局最优的。 分配问题 455. 分发饼…

百度主动推送可以提升抓取,它能提升索引量吗?

站长在建站SEO的时候,需要用到百度站长平台(资源平台)的工具,在站长工具中【普通收录】-【资源提交】-【API提交】这个功能,对网站的抓取进行一个提交。 这里估计很多站长就有疑问,如果我主动推送&#xf…

DevOps-Jenkins-新手入门级

1. Jenkins概述 1. Jenkins是一个开源持续集成的工具,是由JAVA开发而成 2. Jenkins是一个调度平台,本身不处理任何事情,调用插件来完成所有的工作 1.1 什么是代码部署 代码发布/部署>开发书写的程序代码---->部署测试/生产环境 web服务…

速通前端篇 —— CSS

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程程(ಥ_ಥ)-CSDN博客 所属专栏:速通前端 目录 CSS的介绍 基本语法规范 CSS选择器 标签选择器 class选择器 id选择器 复合选择器 通配符选择器 CSS常见样式 颜…