【从零开始学习计算机科学】计算机体系结构(二)指令级并行(ILP)

【从零开始学习计算机科学】【从零开始学习计算机科学】计算机体系结构(二)指令级并行(ILP)

    • ILP
      • 流水线(pipeline)
      • 流水线调度
      • 循环展开和循环流水
        • 循环展开。循环展开的具体步骤可以描述为,
        • 软件流水(循环流水)。我们可以通过流水线的思想处理循环的执行,即不需要这一次的循环体执行完毕,就可以开始下一次的循环体的执行。如果来自循环的迭代是独立的,则可以通过从不同的迭代获取指令,对于不同循环迭代的交联指令可以重新组织循环,以便根据从原始循环的不同迭代选择指令进行执行(类似 Tomasulo算法)
      • 动态调度
        • 记分牌(计分板)算法
      • tomasulo算法
      • 基于硬件的推测
      • 指令多发射
      • 通过存储器体系结构和带宽的优化来开发ILP
      • ILP的局限性
      • ILP总结

ILP

所有指令之间可能实现的通过重叠指令的执行过程成为指令级并行(ILP)。ILP通过重叠多个指令来提高性能利用执行指令所需的操作之间的并行性。即每秒钟执行的指令数增加。而一个指令所需的时间不会更改,但是有可能会增加。ILP对高级(操作系统、程序)不可见。以下为一些常用的ILP技术。

流水线(pipeline)

流水线是实现指令级并行的有效措施之一。本书通过经典的MIPS五周期流水线CPU介绍pipeline技术。当然,流水线并不是只能用于指令级并行,流水线的核心思想可以扩展到许多应用场景,需要我们具体问题具体分析。

我们可以划分指令的执行为以下 5 个经典的阶段:

  • IF:指令提取
    IF阶段根据程序计数器(PC)从内存获取当前指令。
    通过向 PC 添加 4 个指令(因为每个指令是 4 个字节),按顺序将 PC 更新到下一个指令的地址。

  • ID: 指令解码 (带寄存器提取)
    解码指令并读取寄存器;在读取寄存器时,对可能的分支执行相等性测试(提前分支判断)。在需要的情况下,对指令的偏移字段进行符号扩展; 通过将符号扩展偏移量添加到递增的 PC 来计算可能的分支目标地址。在实现了提前分支判断的CPU中,如果条件测试为true,可以通过将目标地址存储到 PC 中完成分支指令。

  • EX:执行
    执行或有效地址计算,在载入-存储体系结构中,无需指令同时计算数据地址并执行数据操作。 ALU 将处理两种可能性之一。

  • MEM:内存访问
    访存阶段,对于load指令,ALU的输出为要读取的数据的地址,对于store指令,将寄存器的数据写回到指定存储器地址,ALU的输出为要存入的数据的地址。

  • WB: (注册) 回写
    写回阶段,将ALU计算的数据或load指令读出的数据存入寄存器中。

流水线对单个任务的延迟没有帮助,它有助于整个工作负载的吞吐量。流水线时钟频率速率受最慢管道阶段限制,流水线的时钟周期时间的最小值等于这五个阶段关键路径的延迟的最大值与寄存器延迟的和。流水线CPU的多个指令在同时运行,并且流水线的最大加速比等于流水线级数。流水线可以缩短每条指令的平均执行时间,这可认为是降低了CPI或时钟周期时间。实际上,流水线并没有缩短每条指令执行的总时间。反而,由于流水线开销,指令的延迟实际上略有增加。

流水线的开销主要表现在,第一,不平衡的管道阶段,最慢的阶段主导着总吞吐量。第二,流水线寄存器和时钟偏斜,第三,寄存器的设置时间存在延迟。

实际中还存在时钟偏斜,我们假设所有寄存器同时在时钟边缘触发。在实际工作中,由于物理设计不完善,一些寄存器比其他人更早的到达时钟边缘。

并且,流水线中存在流水线冒险现象,其会阻止指令流的下一条指令执行。冒险会降低流水化带来的加速比。

冒险通常会带来流水线停顿,对于存在冒险的流水线的加速比,我们可以通过以下方式计算。加速比等于1除以1与每条指令的平均流水线停顿周期的和再乘流水线深度,流水线深度等于非流水化时钟周期除以流水化时钟周期。

冒险通常分为以下三类,1,结构冒险,即指令所需计算资源繁忙(例如,需要多个阶段的指令,在这条指令执行的过程中,不能执行使用这个资源的其他指令)2,数据冒险,即指令之间的数据依赖关系,需要等待以前的指令来完成其数据读/写。3,控制冒险,执行流取决于以前的指令。比如分支跳转指令。

对于不同的冒险,我们采用不同的方法来解决,但是解决这三种不同冒险的思路相似的。

对于结构冒险,其本质上是由于资源不足或者某一模块流水化程度低导致的,为了避免结构冒险,最简单方法解决方法便是流水线停顿,即等待上一条指令执行到消除冒险后再执行下一条指令。停顿通常称为流水线气泡,或称为气泡。对于只有一个写端口的寄存器堆,在同一个时钟周期内,若有两条指令同时去写寄存器堆,就会产生结构冒险,但是,一般来说,在同一个时钟周期内,一条指令读一条指令写寄存器堆不会产生结构冒险。对于结构冒险的最有力的解决措施是添加硬件资源,可以(几乎)消除结构危害。完全避免结构性危险是非常昂贵的,对于流水线功能单元成本更高(流水线式 FP ALU 成本高)。如果结构危险是罕见的,就忽略它。例如,如果 FP 操作很少,则只需使用非流水式 FP ALU。

对于数据冒险,数据冒险是由于指令之间的依赖导致的。通常情况下指令之间存在着依赖关系,即数据相关,我们可以把数据相关分为(真)数据相关,名称相关和控制相关,对于存在依赖关系的两条指令,其必须顺序执行,不能进行重排序。对于真数据相关,我们可以通过合适的调度尽可能地在保持依赖关系的同时减少冒险的发生,对于名称相关,我们可以通过寄存器重命名解决。数据冒险一定发生于存在依赖关系的指令之间,但是存在依赖关系的指令执行时不一定发生数据冒险。对于控制相关,其主要表现为控制相关的指令受到其对应的控制指令(一般是分支指令)控制,只有在应当执行时去执行。对于控制相关,我们可以通过推测来实现存在控制相关的指令的调度。

数据冒险按数据依赖关系划分可以分成以下三类。

1,写后读(RAW)。写后读冒险是由于在写指令i执行前读指令j试图读取相应的寄存器。

2,读后写(WAR)。WAR冒险是由于读指令i执行前写指令j试图写入相应的寄存器。

3,写后写(WAW)依赖。WAR冒险是由于写指令i执行前写指令j试图写入相应的寄存器。

对于RAW冒险,其来源于真数据依赖,而对于WAR和WAW冒险,其来源于名称相关,因此,WAR和WAW冒险可以通过寄存器换名解决。

一般来说,对于数据冒险,我们可以通过旁路(数据前推或短路)和流水线暂停实现数据冒险的解决。旁路技术主要是通过将计算结果通过流水线寄存器转发到当前执行的其他指令之中,其他指令可以通过流水线寄存器获取存在数据依赖的指令的执行结果而不必要等其执行完毕后才获取。比如,对于

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31976.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[项目]基于FreeRTOS的STM32四轴飞行器: 七.遥控器按键

基于FreeRTOS的STM32四轴飞行器: 七.遥控器 一.遥控器按键摇杆功能说明二.摇杆和按键的配置三.按键扫描 一.遥控器按键摇杆功能说明 两个手柄四个ADC。 左侧手柄: 前后推为飞控油门,左右推为控制飞机偏航角。 右侧手柄: 控制飞机飞行方向&a…

2025-03-08 学习记录--C/C++-PTA 习题10-1 判断满足条件的三位数

合抱之木&#xff0c;生于毫末&#xff1b;九层之台&#xff0c;起于累土&#xff1b;千里之行&#xff0c;始于足下。&#x1f4aa;&#x1f3fb; 一、题目描述 ⭐️ 裁判测试程序样例&#xff1a; #include <stdio.h> #include <math.h>int search( int n );int…

光谱相机检测肉类新鲜度的原理

光谱相机通过分析肉类样本在特定波长范围内的光谱反射特性&#xff0c;结合化学与生物指标的变化规律&#xff0c;实现对其新鲜度的无损检测。其核心原理可概括为以下方面&#xff1a; 一、光谱特征与物质成分的关联性 ‌物质特异性吸收/反射‌ 不同化学成分&#xff08;如水分…

【一起学Rust | Tauri2.0框架】基于 Rust 与 Tauri 2.0 框架实现软件开机自启

文章目录 前言 一、准备工作1.1 环境搭建1.2 创建 Tauri 项目1.3 添加依赖 二、实现开机自启的基本原理2.1 开机自启的基本概念2.2 Tauri 应用的生命周期 三、Windows 平台实现3.1 Windows 注册表机制3.2 实现步骤3.3 注意事项 四、Linux 平台实现4.1 Linux systemd 服务4.2 实…

Windows10下docker desktop命令行操作指南(大部分也适用于Linux)

Windows系统最大的特点就是可视化操作&#xff0c;点点鼠标就能操作软件。但是在特殊的情况下&#xff0c;比如docker desktop图标点了之后没反应&#xff0c;但是看后台程序&#xff0c;它又已经运行了&#xff0c;这时候就要使用命令行来操作了。 针对这次情况&#xff0c;所…

静态时序分析:无法满足的生成时钟(TIM-255警告、UITE-461或PTE-075错误)

相关阅读 静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html?spm1001.2014.3001.5482 在阅读本文前&#xff0c;强烈建议首先阅读介绍生成时钟的文章&#xff0c;尤其是其中关于时钟极性和反相的相关内容。 静态时序分析&#xff1a;SDC约束命令cr…

计算机网络--访问一个网页的全过程

文章目录 访问一个网页的全过程应用层在浏览器输入URL网址http://www.aspxfans.com:8080/news/index.aspboardID5&ID24618&page1#r_70732423通过DNS获取IP地址生成HTTP请求报文应用层最后 传输层传输层处理应用层报文建立TCP连接传输层最后 网络层网络层对TCP报文进行处…

从零开发Chrome广告拦截插件:开发、打包到发布全攻略

从零开发Chrome广告拦截插件&#xff1a;开发、打包到发布全攻略 想打造一个属于自己的Chrome插件&#xff0c;既能拦截烦人的广告&#xff0c;又能优雅地发布到Chrome Web Store&#xff1f;别担心&#xff0c;这篇教程将带你从零开始&#xff0c;动手开发一个功能强大且美观…

AI智能眼镜主控芯片:技术演进与产业生态的深度解析

一、AI智能眼镜的技术挑战与主控芯片核心诉求 AI智能眼镜作为XR&#xff08;扩展现实&#xff09;技术的代表产品&#xff0c;其核心矛盾在于性能、功耗与体积的三角平衡。主控芯片作为设备的“大脑”&#xff0c;需在有限空间内实现复杂计算、多模态交互与全天候续航&#xf…

elasticsearch 8.17.3部署文档

elasticsearch 8.17.3部署文档 一、架构拓扑 ip主机名角色192.168.241.151slave1master192.168.241.152slave2node1192.168.241.153slave3node2 二、安装包下载——分别下载上传至所有的节点 下载地址https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-…

PySide(PyQT),QGraphicsItem的pos()和scenePos()区别

在QGraphicsItem中&#xff0c;pos()和scenePos()是两个重要的方法&#xff0c;用于描述图形项的位置&#xff0c;但它们的含义和用途有所不同。理解它们的区别对于正确操作和管理QGraphicsItem的位置至关重要。 1. pos()方法 • 定义&#xff1a;pos()返回的是QGraphicsItem在…

Linux 进程控制:创建、终止、等待与程序替换全解析

亲爱的读者朋友们&#x1f603;&#xff0c;此文开启知识盛宴与思想碰撞&#x1f389;。 快来参与讨论&#x1f4ac;&#xff0c;点赞&#x1f44d;、收藏⭐、分享&#x1f4e4;&#xff0c;共创活力社区。 目录 1.进程创建 1-1 fork函数初识​ 1-2 fork函数返回值​ 1-3…

GStreamer —— 2.18、Windows下Qt加载GStreamer库后运行 - “播放教程 6:音频可视化“(附:完整源码)

运行效果 介绍 GStreamer 带有一组将音频转换为视频的元素。他们 可用于科学可视化或为您的音乐增添趣味 player 的本教程展示了&#xff1a; • 如何启用音频可视化 • 如何选择可视化元素 启用音频可视化实际上非常简单。设置相应的标志&#xff0c;当纯音频流为 found&#…

Excel多级联动下拉菜单设置

1.问题描述 现有数据表如下图所示&#xff1a; 该表中包括省、市、县三级目录。 现要将其整理成数据表模板&#xff0c;如下图所示&#xff1a; 要求制作成下拉菜单的形式&#xff0c;且每一级目录的下拉菜单列表要根据上一级目录的内容来确定。 如上图所示&#xff0c;只有…

Web基础:HTML快速入门

HTML基础语法 HTML&#xff08;超文本标记语言&#xff09; 是用于创建网页内容的 标记语言&#xff0c;通过定义页面的 结构和内容 来告诉浏览器如何呈现网页。 超文本&#xff08;Hypertext&#xff09; 是一种通过 链接&#xff08;Hyperlinks&#xff09; 将不同文本、图像…

VSTO(C#)Excel开发2:Excel对象模型和基本操作

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github&#xff1a;codetoys&#xff0c;所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的&#xff0c;可以在任何平台上使用。 源码指引&#xff1a;github源…

PostgreSQL学习笔记:PostgreSQL vs MySQL

PostgreSQL 和 MySQL 都是广泛使用的关系型数据库管理系统&#xff0c;它们有以下一些对比&#xff1a; 一、功能特性 1. 数据类型支持 PostgreSQL&#xff1a;支持丰富的数据类型&#xff0c;包括数组、JSON、JSONB、范围类型、几何类型等。对于复杂数据结构的存储和处理非…

Matlab:矩阵运算篇——矩阵

目录 1.定义 实例——创建矩阵 实例——创建复数矩阵 2.矩阵的生成 实例——M文件矩阵 2.利用文本创建 实例——创建生活用品矩阵 3.创建特殊矩阵 实例——生成特殊矩阵 4.矩阵元素的运算 1.矩阵元素的修改 实例——新矩阵的生成 2.矩阵的变维 实例——矩阵维度修…

从0到1入门Docker

一、快速入门 Docker run命令中的常见参数 -d&#xff1a;让容器后台运行--name&#xff1a;给容器命名&#xff08;唯一&#xff09;-e&#xff1a;环境变量-p&#xff1a;宿主机端口映射到容器内端口镜像名称结构&#xff1a;Repository &#xff1a;TAG&#xff08;镜像名&…

Python的浮点数

在 Python 中&#xff0c;有四种内置数值类型&#xff0c;分别是整型整数类型&#xff08;int&#xff09;、布尔类型&#xff08;bool&#xff09;、浮点数类型&#xff08;float&#xff09;和复数类型&#xff08;complex&#xff09;。浮点数默认是双精度类型&#xff0c;占…