将Llama2上下文长度扩展100倍;效率更高的SeTformer;LLM准确度基本不变加速1.56×;FreeTalker

本文首发于公众号:机器感知

将Llama2上下文长度扩展100倍;效率更高的SeTformer;LLM准确度基本不变加速1.56×;FreeTalker

Latte: Latent Diffusion Transformer for Video Generation

图片

本文使用Latent Diffusion Transformer(Latte)做视频,首先从输入视频中提取时空tokens,然后采用一系列Transformer块来建模潜在空间中的视频分布。为了建模从视频中提取的大量tokens,作者从输入视频的空间和时间的角度引入了四种高效变体。实验结果表明,Latte在四个标准视频生成数据集(FaceForensics、SkyTimelapse、UCF101和Taichi-HD)上实现了SOTA性能。此外,作者还将Latte扩展到文本到视频生成(T2V)任务,且Latte取得了与最近的T2V模型相当的结果。

Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon

图片

本文提出了一种名为Activation Beacon的模块,可以用于扩展大语言模型(LLM)处理长上下文的能力。该模块通过压缩LLM的原始激活来感知更长的上下文,与此同时保持LLM在处理短上下文时的原始能力。此外,该模块使用短滑动窗口处理长上下文,提高了在训练和推理时的内存和时间效率。该模块通过自回归任务进行训练,仅需10K步和少量GPU时间即可完成训练。实验结果表明,Activation Beacon可以将Llama-2-7B的上下文长度扩展100倍(从4K扩展到400K),同时在长上下文生成和理解任务上取得了很好的结果。

Freetalker: Controllable Speech and Text-Driven Gesture Generation Based on Diffusion Models for Enhanced Speaker Naturalness

图片

本文提出了一种名为FreeTalker的框架,用于生成自发(如伴随言语的手势)和非自发(如演讲者在讲台上的移动)的演讲者动作。该框架利用了来自不同动作数据集的异构数据,训练了一个基于扩散模型的演讲者动作生成器,该模型使用统一的表示形式来驱动言语手势和文本动作。在推理过程中,使用CFG来控制clips的风格。此外,为了创建clips之间的平滑过渡,作者使用了DoubleTake方法,该方法利用生成先验并确保无缝的运动混合。实验结果表明,该方法能够生成自然且可控的演讲者动作。

SeTformer is What You Need for Vision and Language

图片

本文提出了一种名为SeTformer的新型Transformer,该模型通过将点积自注意力(DPSA)完全替换为自我最优传输(SeT)来提高性能和计算效率。SeT基于两个重要的softmax属性,并通过引入核代价函数来实现这些属性。在小型和基础模型上,SeTformer在ImageNet-1K上实现了84.7%和86.2%的top-1准确率。在目标检测中,SeTformer-base比FocalNet高出2.2 mAP,参数和FLOPs分别减少了38%和29%;在语义分割中,基础模型比NAT高出3.5 mIoU,参数减少了33%;SeTformer还在GLUE语言建模任务中取得了最佳结果;这说明SeTformer适用于视觉和语言任务中。

FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGA

图片

Transformer-based大语言模型(LLMs)在多个领域产生了重大影响,但计算和内存开销过大。常用的压缩技术缓解了LLM计算/内存开销与硬件限制的差距,但现有的GPU和transformer加速器无法高效处理压缩的LLM,因为存在计算效率低、内存带宽未充分利用和编译开销大等问题。本文提出了FlightLLM,通过在FPGA上实现完整的映射流实现LLM的高效推理。在FlightLLM中,作者利用FPGA特有的资源(如DSP48和异构内存层次结构)来解决LLM的计算和内存开销问题。还提出了一种可配置的稀疏DSP链,以高计算效率支持不同的稀疏模式。其次,还提出了一种always-on-chip的解码方案,以支持混合精度并提高内存带宽。

FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference

图片

预训练语言模型(LLM)性能强大,但参数众多,难以在单GPU等硬件上部署。为降低模型大小和推理延迟,常采用模型压缩技术,但会影响模型准确性和效率。作者发现前馈网络(FFN)只有少数神经元对输入有大的输出范数(heavy hitters),据此,将FFN分为两部分,并为heavy hitters部分分配更多资源,从而平衡优化效率和准确性。此方法可使模型大小减少43.1%,加速1.25∼1.56×,同时几乎不降低准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/234360.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pod探针2:

就绪探针演示: 演示探针失败 存活探针(livenessProde):探测容器是否是否运行正常,如果探测失败则kubelet杀掉容器(不是Pod),容器会根据重启策略决定是否重启 就绪探针(re…

tcp/ip协议2实现的插图,数据结构6 (24 - 章)

(142) 142 二四1 TCP传输控制协议 tcpstat统计量与tcp 函数调用链 (143) 143 二四2 TCP传输控制协议 宏定义与常量值–上 (144) 144 二四3 TCP传输控制协议 宏定义与常量值–下 (145) 145 二四4 TCP传输控制协议 结构tcphdr,tcpiphdr (146) 146 二四5 TCP传输控制协议 结构 tcp…

【SkyWant.[2304]】路由器操作系统,移动【Netkeeper】使用教程校园网

目录 步骤一:正确连接网线,插电开机正确连接网线: 认识系统灯: 插电开机: 步骤二:开机之后,系统的基本设置 1.进入设置界面: 2.设置辅助热点wifi: 3.设置日常…

互斥、自旋、读写锁的应用场景

互斥、自旋、读写锁的应用场景 锁🔒1、互斥锁、自旋锁2、读写锁:读写的优先级3、乐观锁和悲观锁总结: 锁🔒 ​ 多线程访问共享资源的生活,避免不了资源竞争而导致错乱的问题,所以我们通常为了解决这一问题…

竞赛保研 基于深度学习的人脸识别系统

前言 🔥 优质竞赛项目系列,今天要分享的是 基于深度学习的人脸识别系统 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🧿 更多资料, 项目分享: https://gitee.com/dancheng-senior/…

【开源GPT项目 - 在问】让知识无界,智能触手可及

Chatanywhere: chatAnywhere 在问 | 让知识无界,智能触手可及 项目简介 这是一个免费的在线聊天工具,旨在让用户更方便地享受科技带来的便利。用户可以使用我们的工具来获取答案、寻求建议、进行翻译和计算等等。这是由一位个人开发者创建的&#xff…

thinkadmin安装步骤

一,先cmd运行安装命令 ### 创建项目( 需要在英文目录下面执行 ) composer create-project zoujingli/thinkadmin二,在confing中的database.php配置数据库 三,将仓库的data复制到app目录下 https://gitee.com/zoujingli/think-plugs-data 四,在cmd运行命令安装数据库 //…

计算机网络 - 路由器查表过程模拟 C++(2024)

1.题目描述 参考计算机网络教材 140 页 4.3 节内容,编程模拟路由器查找路由表的过程,用(目的地址 掩码 下一跳) 的 IP 路由表以及目的地址作为输入,为目的地址查找路由表,找出正确的下一跳并输出结果。 1.…

使用SpirngBoot时部分编译报错解决方案:

1. 类文件具有错误的版本 61.0, 应为 52.0 请删除该文件或确保该文件位于正确的类路径子目录中。 报错截图: 解决方案: 找到springboot的java版本看是多少版本,springboot 3.0以上的版本需要最低JDK17的版本,所以查看你自己…

LeetCode 2397. 被列覆盖的最多行数:二进制枚举

【LetMeFly】2397.被列覆盖的最多行数:二进制枚举 力扣题目链接:https://leetcode.cn/problems/maximum-rows-covered-by-columns/ 给你一个下标从 0 开始的 m x n 二进制矩阵 mat 和一个整数 cols ,表示你需要选出的列数。 如果一行中&am…

Transformer从菜鸟到新手(五)

引言 上篇文章我们在单卡上完成了完整的训练过程。 从本文开始介绍模型训练/推理上的一些优化技巧,本文主要介绍多卡并行训练。 下篇文章将介绍大模型推理常用的缓存技术。 多卡训练 第一个要介绍的是利用多GPU优化,因为在单卡上训练实在是太慢。这…

ip协议历史

今天的互联网,是万维网(WWW)一家独大。而在上世纪七八十年代,人们刚开始尝试网络连接时,那时出现了计算机科学研究网络、ALOHA 网、因时网、阿帕网等不同类型的网络,这些网络之间互相通信是个难题。 于是&…

IDEA 常用快捷键大全(建议收藏)

代码开发时 常用快捷键 快捷键功能使用建议CtrlAltOOptimize imports 比较实用 去除导入的无用的包CtrlAltIAuto-indent line(s) 比较实用 自动缩进代码CtrlAltLReformat code 比较实用 格式化选中的代码CtrlAltShiftL 比较实用 格式化整个文件TabIndent 比较实用 缩进Sh…

MySQL之导入、导出

文章目录 1.navicat导入导出2.mysqldump命令导入导出2.1导出2.2导入 3.load data infile命令导入导出4.远程备份5.思维导图 1.navicat导入导出 使用Navicat工具导入t_log 共耗时 55s 2.mysqldump命令导入导出 2.1导出 导出表数据和表结构 语法: mysqldump -u用…

Pytest接口自动化测试框架搭建

一. 背景 Pytest目前已经成为Python系自动化测试必学必备的一个框架,网上也有很多的文章讲述相关的知识。最近自己也抽时间梳理了一份pytest接口自动化测试框架,因此准备写文章记录一下,做到尽量简单通俗易懂,当然前提是基本的py…

vue中鼠标拖动触发滚动条的移动

前言 在做后端管理系统中,像弹窗或大的表单时,经常会有滚动条的出现,但有些时候如流程、图片等操作时,仅仅使用鼠标拖动滚动条操作不太方便,如果使用鼠标拖拽图片或容器来触发滚动条的移动就比较方便了 功能设计 如…

519基于单片机的自动切割流程控制系统

基于单片机的自动切割流程控制系统[proteus仿真] 自动切割流程控制系统这个题目算是课程设计和毕业设计中常见的题目了,本期是一个基于单片机的自动切割流程控制系统 需要的源文件和程序的小伙伴可以关注公众号【阿目分享嵌入式】,赞赏任意文章 2&…

java智慧医院互联网智慧3D导诊系统源码,经由智慧导诊系统多维度计算,准确推荐科室

什么是智慧导诊系统? 简单地说,智慧导诊系统是一种利用人工智能技术,为医生提供帮助的系统。它可以通过分析患者的症状和病史为医生提供疾病诊断和治疗方案的建议。 系统介绍: 医院智慧导诊系统是在医院中使用的引导患者自助就诊挂号&…

拼多多API:从数据中挖掘商业价值的力量

随着大数据时代的来临,数据已经成为企业决策和创新的基石。拼多多API作为电商领域的重要接口,为企业提供了从数据中挖掘商业价值的机会。通过拼多多API,企业可以获取丰富的用户数据、商品数据和交易数据,从而深入了解市场需求、优…

springboot学生成绩管理系统源码和论文

随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生,各行各业相继进入信息管理时代&#xf…