RISC-V vector(1) --- vector的引入与register说明

Vector相较于SIMD的优势

     这两种实现方案,都是为了实现数据级并行性(存在大量的数据可供程序同时计算);

SIMD(Single Instruction Multiple Data)

     SIMD是将数据宽度和操作类型,都放在了指令中;

        

  • SIMD技术最初通过将64位寄存器的数据拆分成多个8位、16位、32位的形式来实现byte、half word、word类型数据的并行计算;
  • 在后续,为了进一步增加计算的并行度,SIMD技术开始通过增加寄存器位宽来满足应用对算力的需求;
  • 因此,扩展SIMD的寄存器,意味着要同时扩展SIMD的指令集;
  • 而这种改变SIMD寄存器的宽度和SIMD指令数量的翻倍,都让ISA走上了复杂的道路;
  • 这一后果由处理器设计者、编译器编写者和汇编语言程序员共同承担;

VECTOR

RISC-V Vector 拥有其他架构矢量指令没有的两大优点:硬件维护方便与指令长度可变

  • 向量寄存器的大小由实现决定,而不是像SIMD中那样嵌入操作码中;
  • 它将向量的长度和每个时钟周期可以进行的最大操作数分离,是向量体系结构的关键所在:
    • 向量微架构可以灵活地设计数据并行硬件而不会影响到程序员,程序员可以不用重写代码就享受到长向量带来的好处。
  • 对于某一个矢量操作,即使硬件中的寄存器长度变化,代码也不需要作更改;
  • 相反的,在同一硬件中,即使指令长度作相应改变,代码也不需要更改。
  • 这意味着任何 RISC-V 兼容处理器编写的代码在其余 RISC-V 处理器上依然适用,这对于用户来说,简易性直线上升。
  • 上述的优点也就意味着,向量架构比SIMD 架构拥有更少的指令数量;

Vector register

register

  • v0~v31, 32个vector寄存器,每个寄存器的宽度都是由VLEN决定的;
  • Vector Context Status in mstatus/sstatus
    • 放在mstatus[10:9], 用来指示相关状态;
    • 当VS==off时,执行任何的vector指令,或者访问vector的CSR,都会产生illegal-inst excp;
    • 当VS set to initial or clean时,只要执行vector指令,或者访问vector CSR, 会将VS状态改为dirty; 当然,具体的实现可以随意更改该状态,而不必等到有vector访问;
    • 如果VS是dirty的,则mstatus.SD要设置成1; 
  • Vector Context Status in vsstatus    
    • When the hypervisor extension is present;
  • Vector type register, vtype
    • read-only XLEN-wide vector type CSR;
    • can only be updated by vset{i}vl{i} instructions.
    • vlmul(vector length multipler), vector register grouping, 指的是多个vector的寄存器,可以被分成多个group, 这样一个vector instr, 就可以在多个vector寄存器上处理;
      • LMUL is set by the signed vlmul field in vtype (i.e., LMUL = 2**vlmul[2:0]),表示需要多少个寄存器参与运算;
      • the requirement is to support LMUL ≥ SEW_MIN/ELEN
        • SEW, selected element width, 参考下一节的描述;
        • ELEN, 最大的SEW;
        • 所以,从上面的公式来看,LMUL可以是整数,也可以是分数;
        • 当LMUL< SEW_MIN/ELEN时,需要设置vill,表示指令异常;
    • vsew,就是对应的element宽度;
      • 例如,假如一个寄存器是128bits, 那么:
      • 默认情况下,一个vector的寄存器,会被认为分成了VLEN/SEW elements
    • vta & vma;
      • vta, vector tail agnostic;
      • vma, vector mask agnostic;
      • 这两个bit用来控制vector instruction的tail element和inactive element的行为;
      • undisturbed: 不受干扰; agnostic: 不可预知;
      • 当一个element被标记成undisturbed时,则vector register group中响应的element将会保留原来的值不变;
      • 当一个element被标记成agnostic时,destination element既可以保留原来的值,也可以overwrite by 1;
      • 为什么需要agnostic?
        • 在有些处理器中,会采用寄存器重命名的技术,比如超标量流水线处理器,在undisturbed策略下,必须从旧的物理目标向量寄存器中读取元素值,才能复制到新的物理目标寄存器中;也可以说,在新的物理寄存器进行重命名时,需要根据重命名映射表,查到原有的映射关系,然后把其中的元素值读出来,写到重命名后的对应元素。这对于不需要这些非活跃元素和尾部元素值的之后的运算既降低了性能也增加了功耗。因此undisturbed策略就显得很不可观,此时按照agnostic策略进行运算比较好。

    • vill;

      • 此bit用来当vset指令想要往vtype中写入不支持的值时,vill字段置1;

      • 当vill bit置位时,任何想要用vtype来做vector operation的指令,都会产生一个illegal-instruction excption;

      • 当vill有效时,vtype其他字段全部清零;

  • vector length register

    • 向量长度寄存器,只读,规定了一条向量指令需要操作的元素个数,为无符号数。

    • 该寄存器只被vsetvli、vsetvl指令和fault-only-first向量加载(load)指令变量更改。

    • 当vl=0或者vstart≥vl时,目的寄存器的所有元素都不被更改,也可以说指令不执行。

    • vl的宽度由最小元素宽度(SEW)和最大向量长度决定,其中SEW规定了指令执行元素的宽度,最小为8,最大向量长度为组成的最长的向量寄存器组,由VLMUL决定,最大为8。所以最多元素个数为

  • vlenb, vector byte length;

    • vlenb为只读,恒为VLEN/8,表示以字节为单位的向量寄存器长度;
    • 当有些指令需要以字节为单位使用向量寄存器时,用于减少额外的计算过程。
  • vstart, vector start index;
    • RW, 用来指定vector指令中的第一个元素的index;
    • 通常,vstart只通过在vector指令执行过程中产生的trap中被写入,记录synchronous exception或者asynchronous interrupt时,当前已经执行到的element index, 恢复的时候可以正常恢复;
    • 所有vector instruction保证目的寄存器vstart之前的元素不被更改,指令执行结束,vstart寄存器置零。
  • vxrm, Vector Fixed-Point Rounding Mode Register;
    • RW, 向量定点舍入模式;
    • vxrm共有四种模式:
      a)round-to-nearest-up(rnu):就近舍入,当为中间值时,向上舍入(四舍五入)。
      b)round-to-nearest-even(rne):就近舍入,当为中间值时,向偶数舍入。
      c)round-down(rdn):向下舍入,直接取移位后的值。
      d)round-to-odd(rod):向奇数舍入。

    • 设源操作数为vs1,有d位要被截位,则舍入后的值为(vs1>>d)+r,其中r为不同舍入模式下的差值:

  • vxsat, Vector Fixed-Point Saturation Flag;

    • 该bit指示是否有定点指令必须将输出值饱和以适应目标格式。位vxsat[XLEN-1:1]应写为零。vxsat位在vcsr中有镜像。

  • vcsr, Vector Control and Status Register

    • The vxrm and vxsat separate CSRs can also be accessed via elds in the vector control and status CSR, vcsr.

Vector中element的几个概念

  • Prestart, Active, Inactive, Body, and Tail, 这几个都是针对element来说的;
  • 假设VLEN=32,LMUL=2,SEW=16,那么这条指令需要操作4个元素。如果vstart设置为1,vl设置为2,那这些概念对应的分别是如图所示:

   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/408573.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

http应用层协议

一、万维网 用来存放各种资源的网络。 1、如何在万维网中表示一个资源 ? url ——统一资源定位符&#xff1b; 形式&#xff1a; <协议>://<主机>:<端口>/<路径>&#xff1b; <主机>:<端口>/<路径> //表示了资源所在的…

这个TOP 100 AI应用榜单,包含了所有你需要的使用场景(一)

大家好&#xff0c;我是木易&#xff0c;一个持续关注AI领域的互联网技术产品经理&#xff0c;国内Top2本科&#xff0c;美国Top10 CS研究生&#xff0c;MBA。我坚信AI是普通人变强的“外挂”&#xff0c;专注于分享AI全维度知识&#xff0c;包括但不限于AI科普&#xff0c;AI工…

【Unity3D小技巧】Unity3D中实现FPS数值显示功能实现

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址QQ群&#xff1a;398291828 大家好&#xff0c;我是佛系工程师☆恬静的小魔龙☆&#xff0c;不定时更新Unity开发技巧&#xff0c;觉得有用记得一键三连哦。 一、前言 很简单也很使用的小技巧&#xff0c;就是在Unity…

【系统分析师】-综合知识-计算机系统基础

1、流水线的吞吐率是指流水线在单位时间里所完成的任务数或输出的结果数。设某流水线有 5 段&#xff0c;有 1 段的时间为 2ns &#xff0c;另外 4 段的每段时间为 1ns&#xff0c;利用此流水线完成 100 个任务的吞吐率约为&#xff08;16&#xff09;个/s 。 2、矢量图像通过使…

[NeurIPS 2024] Self-Refine: Iterative Refinement with Self-Feedback

Contents TL;DRReferences TL;DR 通过让 LLM 生成 feedback 不断 refine 自身的回答&#xff0c;可以提升回答效果&#xff0c;但也会带来不可忽视的推理开销 References Madaan, Aman, et al. “Self-refine: Iterative refinement with self-feedback.” Advances in Neura…

广州网站制作seo优化技巧

随着互联网的迅速发展&#xff0c;越来越多的企业意识到网站对于品牌推广和销售的重要性。而在众多网站中&#xff0c;如何让自己的站点脱颖而出&#xff0c;是每个网站管理员和SEO从业者必须面对的挑战。特别是对于广州这样一个经济繁荣、竞争激烈的城市&#xff0c;网站制作和…

基于R语言进行AMMI分析2

接续上文【基于R语言进行AMMI分析1】 1、AMMI()函数的结果解读 # 加载agricolae包 library(agricolae) # 加载数据 data(plrv) # 查看数据 head(plrv) model<-with(plrv,AMMI(Locality,Genotype,Rep,Yield,PCTRUE)) # 查看方差分析结果 model$ANOVA # 查看主成分的方差分析…

minio 后端大文件分片上传,合并,删除分片

背景 网上大多数minio大文件上传都是采用后台返回前端预上传链接&#xff0c;然后由前端去put请求直接和minio通信上传分片文件&#xff0c;然后调用后台合并分片逻辑来达到快申诉上传的目的&#xff0c;详情可以参考我的上两篇文章 最近有个项目域名是https的&#xff0c;但…

详解华为项目管理,附华为高级项目管理内训材料

&#xff08;一&#xff09;华为在项目管理中通过有效的沟通、灵活的组织结构、坚持不懈的努力、细致的管理和科学的考核体系&#xff0c;实现了持续的创新和发展。通过引进先进的管理模式&#xff0c;强调以客户需求为导向&#xff0c;华为不仅优化了技术管理和项目研发流程&a…

单片机原理及技术(八)—— 串行口的工作原理及应用

目录 一、串行通信基础 1.1 并行通信与串行通信 1.1.1 并行通信 1.1.2 串行通信 1.2 同步通信与异步通信 1.3 串行通信的传输模式 二、串行口的结构 2.1 串行口控制寄存器SCON 2.1.1 SM0、SM1 2.1.2 SM2 2.1.3 REN 2.1.4 TB8 2.1.5 RB8 2.1.6 TI 2.1.7 RI 2.2 …

数据结构: 树状数组

在OI赛事中&#xff0c;数据结构是非常重要的一个内容&#xff0c;更是有人说过&#xff0c;算法数据结构程序: A l g o r i t h m D a t a AlgorithmData AlgorithmData S t r u c t u r e P r o g r a m m i n g StructureProgramming StructureProgramming 接下来&#…

如何在 Ubuntu 系统中安装PyCharm集成开发环境?

在上一篇文章中&#xff0c;我们探讨了Jupyter notebook&#xff0c;今天再来看看另一款常用的Python 工具&#xff0c;Pycharm。 PyCharm也是我们日常开发和学习常用的Python 集成开发环境 (IDE)&#xff0c;由 JetBrains 开发。 PyCharm 带有一整套可以帮助用户在使用Pytho…

docker映射了端口,宿主机不生效

1、问题产生原因 docker run -d --name my-redis -p 6379:6379 -v /usr/redis.conf:/usr/local/etc/redis/redis.conf team-redis:3.2 redis-server /usr/local/etc/redis/redis.conf 这容器跑起来了&#xff0c;端口6379没用。搞的我一直怀疑哪里出错了&#xff0c;查看配置…

【网络安全】服务基础第一阶段——第二节:网络测试与用户

一、Windows网络测试工具 CMD&#xff08;命令提示符&#xff09;中&#xff0c;ping和tracert是两个非常有用的网络诊断工具 1.1.ping命令 ping命令是Windows和其他操作系统中用于测试主机之间网络连接是否可达的基本命令行工具。它通过发送ICMP&#xff08;Internet Contr…

CSS中的元素布局与定位详细说明

1、前言 在CSS开发中&#xff0c;很重要的一个工作就是根据UI设计稿&#xff0c;进行元素的布局与定位&#xff0c;使得元素&#xff08;比如某一段文本、按钮、图片等&#xff09;显示在页面正确的位置。本文就元素的布局与定位方面&#xff0c;做一些讲解和说明。 2、元素的…

Markdown 美化 Github 个人主页

注&#xff1a;本文参考这篇博客 http://t.csdnimg.cn/KXhSw 目录 1 效果展示2 创建仓库3 编写 Markdown3.1 动态波浪图3.2 打字机动图3.3 技术栈图标3.4 项目贡献统计3.5 连续贡献统计3.6 贡献统计图3.7 代码时长统计3.8 仓库代码占比 1 效果展示 先来看看效果&#xff1a; 动…

OSPF路由配置--多区域

目录 不理解OSPF路由动态协议的可以回顾一下OSPF详解&#xff0c;下这一系列的实验都不再做解释,直接开始配置 一. 实验拓扑 二. 实验配置 (命令可以直接复制粘贴到CLI中) 三. 实验验证 不理解OSPF路由动态协议的可以回顾一下OSPF详解&#xff0c;下这一系列的实验都不…

C++ 设计模式——迭代器模式

迭代器模式 C 设计模式——迭代器模式1. 主要组成成分2. 迭代器模式范例2.1 抽象迭代器2.2 抽象容器2.3 具体的迭代器2.4 具体的容器2.5 主函数示例 3. 迭代器 UML 图3.1 迭代器 UML 图解析 4. 迭代器模式的优点5. 迭代器模式的缺点6. 迭代器模式的适用场景7. 现代C中的迭代器总…

【深度学习】使用Conda虚拟环境安装多个版本的CUDA和CUDNN方便切换

conda虚拟环境安装CUDA和CUDNN 官网教程 https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#conda-installation 1. 背景 深度学习用显卡训练的时候&#xff0c;需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的&#x…

Openssl Infinite Loop 漏洞(CVE-2022-0778)

Openssl Infinite Loop 漏洞&#xff08;CVE-2022-0778&#xff09; 1. 漏洞详情 在该漏洞中由于证书解析时使用的 BN_mod_sqrt() 函数存在一个错误&#xff0c;它会导致在非质数的情况下永远循环。可通过生成包含无效的显式曲线参数的证书来触发无限循环。由于证书解析是在验…