LLM论文周报|来自谷歌、华为、斯坦福大学、香港大学等机构前沿论文研究

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文,来自谷歌、华为、斯坦福大学、香港大学等机构。

为了方便大家阅读,只列出了论文标题、作者、ChatPaper综述等信息,如果感兴趣可以点击链接查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

ChatPaper入口:https://www.aminer.cn/chat/g

1.CAME: Confidence-guided Adaptive Memory Efficient Optimization 论文详情页

作者:Yang Luo,Xiaozhe Ren,Zangwei Zheng,Zhuo Jiang,Xin Jiang,Yang You

链接:https://www.aminer.cn/pub/64a63bddd68f896efaec6604/?f=cs

ChatPaper综述:这篇论文讨论了在训练大型语言模型时,自适应梯度方法如 Adam 和 LAMB 表现出非常好的性能,但是需要维护每个参数梯度的第二阶矩估计,这需要额外的内存开销。为了解决这个问题,论文提出了 CAME,一个基于自信指导的自适应内存高效优化器。CAME 通过使用自信指导策略来减少现有内存高效优化器的不稳定性。基于这个策略,CAME 同时实现了两个目标:像传统自适应方法一样快速收敛,像内存高效方法一样低内存使用。广泛的实验结果表明,CAME 在多种自然语言处理任务中训练稳定,表现出色,特别是在 BERT 预训练的大型批量大小 32,768 中,相比 Adam 优化器,我们的提出的方法实现了更快的收敛和更高的精度。CAME 的实现是公开可用的。

2.BiPhone: Modeling Inter Language Phonetic Influences in Text 论文详情页

作者:Abhirut Gupta,Ananya B. Sai,Richard Sproat,Yuri Vasilevski,James S. Ren,Ambarish Jash,Sukhdeep S. Sodhi,Aravindan Raghuveer

链接:https://www.aminer.cn/pub/64ab82833fda6d7f06f77db1/?f=cs

ChatPaper综述:这篇论文讨论了由于技术不对称性等原因,许多人被迫使用他们不太熟悉的第二语言 (L2) 在互联网上交流,这使得 L2 文本往往包含大量的错误,这些错误受到他们母语 (L1) 的影响。论文提出了一种方法来挖掘 L1 和 L2 之间的语音混淆 (即 L2 中的声音,L1 听众可能混淆),并将这些混淆注入到一个生成模型 (Bi-Phone) 中,以合成地生成损坏的 L2 文本。通过人类评估,论文表明 Bi-Phone 可以生成合理的损坏,并且在不同的 L1 之间有所不同,并且这种损坏在 Web 上具有广泛的覆盖范围。此外,论文还通过将这种损坏技术应用于流行的语言理解基准 SuperGLUE,发现 SoTA 语言理解模型在这种方法下表现较差。此外,论文还介绍了一种新的语音预测预训练任务,可以帮助字节模型恢复到接近 SuperGLUE 的性能。最后,论文还发布了名为 FunGLUE 的基准测试,以促进进一步研究口语鲁棒的语言模型。

3.VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models 论文详情页

作者:Wenlong Huang,Chen Wang,Ruohan Zhang,Yunzhu Li,Jiajun Wu,Li Fei-Fei

链接:https://www.aminer.cn/pub/64abee0f286e8b4b6fcd5c84/?f=cs

ChatPaper综述:这篇论文旨在利用大型语言模型 (LLM) 为机器人操纵合成大量不同任务的动态机器人轨迹。在此之前,大多数机器人操纵研究都依赖于预先定义的运动模式,这种模式在很大程度上限制了机器人的交互能力。该论文提出了一种方法,利用 LMM 的推断能力和编写代码的能力,与视觉语言模型 (VLM) 相互作用,以生成 3D 值地图,并将其用于模型 based 规划框架,以零样本合成闭环机器人轨迹,同时具有对动态扰动的鲁棒性。该框架还利用在线经验高效学习接触丰富的场景的动态模型。该方法在模拟和真实机器人环境中进行了大规模研究,展示了能够执行 30 多种日常生活中的机器人操纵任务的能力,这些任务是通过自由文本描述指定的。

4.PolyLM: An Open Source Polyglot Large Language Model 论文详情页

作者:Xiangpeng Wei,Haoran Wei,Huan Lin,Tianhao Li,Pei Zhang,Xingzhang Ren,Mei Li,Yu Wan,Zhiwei Cao,Binbin Xie,Tianxiang Hu,Shangjie Li,Binyuan Hui,Bowen Yu,Dayiheng Liu,Baosong Yang,Fei Huang,Jun Xie

链接:https://www.aminer.cn/pub/64af76ed3fda6d7f0647132f/?f=cs

ChatPaper综述:这篇论文介绍了一种名为 PolyLM 的开源多语言大型语言模型,该模型通过融合双语数据并采用课程学习策略来提高其多语言能力,并在训练数据中融入了双语言数据。此外,还提出了一种多语言自我指导方法,该方法可以自动生成 132,700 个多样化的多语言指令用于模型微调。通过广泛的实验,论文表明 PolyLM 在多语言任务中表现优异,同时英语表现与现有开源模型 LLaMA 和 BLOOM 相当。

5.Teaching Arithmetic to Small Transformers 论文详情页

作者:Nayoung Lee,Kartik Sreenivasan,Jason D. Lee,Kangwook Lee,Dimitris Papailiopoulos

链接:https://www.aminer.cn/pub/64ab82833fda6d7f06f77dee/?f=cs

ChatPaper综述:这篇论文研究了如何将基本算术运算教给小型 Transformer 模型。我们发现,在大量文本数据上训练的小型 Transformer 模型可以从随机初始化开始高效地学习算术操作,如加法、乘法和基本的平方根函数。我们首先证明传统的训练数据对于算术学习并不是最有效的,简单的数据格式变化可以显著提高准确性。随着训练数据的增大,会出现明显的阶段变化,这可以通过与低秩矩阵填充相关的联系来解释。在此基础上,我们使用包括中间步骤结果的链式想法数据进行训练。即使在没有预训练的情况下,这种方法可以同时显著提高准确性、样本复杂度和收敛速度。我们还研究了算术和文本数据之间的互动,并考察了少量提示、预培训和模型规模的影响。此外,我们讨论了长度泛化挑战。我们的工作强调了高质量、指导数据的重要性,应考虑 next-token 预测目标的特殊性质,以迅速诱导算术能力。

6.Lost in the Middle: How Language Models Use Long Contexts 论文详情页

作者:Nelson F. Liu,Kevin Lin,John Hewitt,Ashwin Paranjape,Michele Bevilacqua,Fabio Petroni,Percy Liang

链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eb25/?f=cs

ChatPaper综述:这篇论文研究了语言模型如何使用长上下文。虽然近年来出现了一些能够处理长上下文的语言模型,但人们对于语言模型如何在长上下文中运用信息了解较少。本文针对两个需要从输入上下文中识别相关信息的任务:多文档问题解答和键值检索,进行了分析。发现语言模型在输入上下文的开头或结尾处获取的信息往往效果最好,而在长上下文的中部获取信息会使性能显著降低。此外,对于长上下文模型,输入上下文长度的增加会显著降低性能。本文的分析为更好地理解语言模型如何运用输入上下文提供了新的理解,并为未来的长上下文模型提供了新的评估标准。

7.VideoGLUE: Video General Understanding Evaluation of Foundation Models 论文详情页

作者:Liangzhe Yuan,Nitesh Bharadwaj Gundavarapu,Long Zhao,Hao Zhou,Yin Cui,Lu Jiang,Xuan Yang,Menglin Jia,Tobias Weyand,Luke Friedman,Mikhail Sirotenko,Huisheng Wang,Florian Schroff,Hartwig Adam,Ming-Hsuan Yang,Ting Liu,Boqing Gong

链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eb1f/?f=cs

ChatPaper综述:这篇论文评估了现有的 foundation 模型在视频理解方面的能力,使用了精心设计的实验协议,包括三个标志性任务 (动作识别、时间定位和时空定位),八个受到社区欢迎的 datasets,以及四种针对下游任务调整 foundation 模型的方法。此外,我们还提出了一个指标 VideoGLUE 分数 (VGS),以测量 foundation 模型在通用视频理解任务上的有效性和效率。我们的结果表明,任务专业化模型显著优于我们研究的六个 foundation 模型,这与 foundation 模型在自然语言和图像理解方面取得的成就大不相同。此外,视频原生 foundation 模型 (其在预训练数据中包含视频模式) 在分类运动丰富的视频、时间定位动作和理解多个动作的视频方面通常比图像原生 foundation 模型表现更好。第三种发现表明,对于视频任务,视频原生 foundation 模型在轻度适应下游任务 (例如冻结 foundation 模型的 backbone) 时表现良好,而图像原生 foundation 模型在完整端到端微调时表现更好。前两个观察表明,需要专注于视频焦点的 foundation 模型的研究,最后一个观察结果表明,任务和适应方法对于 foundation 模型的评估至关重要。

8.Focused Transformer: Contrastive Training for Context Scaling 论文详情页

作者:Szymon Tworkowski,Konrad Staniszewski,Mikołaj Pacek,Yuhuai Wu,Henryk Michalewski,Piotr Miłoś

链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eb23/?f=cs

ChatPaper综述:这篇论文研究了如何通过对比训练来解决外部内存中的记忆效果不佳的问题,外部内存中的记忆内容包括 (键,值) 。随着文档数量的增加,相关键的数量越来越少,导致模型更多地关注无关键。这种情况称之为干扰问题。为了解决这个问题,作者提出了 Focused Transformer(FoT) 技术,该技术利用对比训练来增强 (键,值) 空间的结构,从而扩展上下文长度。作者还展示了使用 FoT 技术微调现有的大型语言模型,可以延长其有效上下文。实证结果表明,使用 FoT 技术的 LongLLaMA 模型在需要长时间上下文的任务中取得了进展,例如密码检索。此外还证明了LongLLaMA 模型可以有效地处理 256 千个上下文长度,这在以前是难以处理的。

9.GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest 论文详情页

作者:Shilong Zhang,Peize Sun,Shoufa Chen,Min Xiao,Wenqi Shao,Wenwei Zhang,Kai Chen,Ping Luo

链接:https://www.aminer.cn/pub/64ab828f3fda6d7f06f78840/?f=cs

ChatPaper综述:这篇论文提出了一种名为 GPT4RoI 的新方法,使用区域指令微调大规模语言模型 (LLM) 以获得更准确的多模态理解能力。传统的图像文本指令训练方法只能建立图像级别的视觉语言对齐,缺乏区域级别的对齐,这限制了他们对精细多模态理解的进步。在这篇论文中,作者提出了一种名为区域指令微调的方法,使用区域指令将 bounding box 转换为格式为 spatial instruction 的指令。然后,将区域指令和语言嵌入的 interleaved 序列作为输入到 LLM 中,并在以指令微调格式转换的区域文本数据上进行训练。GPT4RoI 区域级视觉语言模型的提出提供了一种全新的对话和交互体验,超越了图像级别理解的能力。(1) 可控性:用户可以通过语言和区域指令两种方式与模型交互,以灵活地调整问题的细节水平。(2) 能力:模型不仅支持单区域区域指令,还支持多区域区域指令,从而解锁更多的区域级别多模态能力,例如详细的区域标题和复杂的区域推理。(3) 组合性:任何现成的对象检测器都可以作为区域指令提供者,以便从我们的模型中挖掘出有用的对象属性,如颜色、形状、材料、动作、与其他对象的关联等。

10.Generative Pretraining in Multimodality 论文详情页

作者:Quan Sun,Qiying Yu,Yufeng Cui,Fan Zhang,Xiaosong Zhang,Yueze Wang,Hongcheng Gao,Jingjing Liu,Tiejun Huang,Xinlong Wang

链接:https://www.aminer.cn/pub/64ae259c3fda6d7f0658f3b5/?f=cs

ChatPaper综述:这篇论文介绍了 Emu,一种基于 Transformer 的多功能基础模型,可以在多模态上下文中无缝生成图像和文本。该模型是一种杂食性模型,可以接受任意单一模态或多模态输入 (例如交替的图像、文本和视频),并通过一种通用的自动回归训练过程进行一对一训练。首先,视觉信号被编码为嵌入,并与文本令牌一起形成交替的输入序列。然后,Emu 通过统一的目标进行分类,以预测下一个文本令牌或回归下一个视觉嵌入在整个多模态序列中。这种多功能多模态性使模型能够探索多种大规模预训练数据来源,例如视频的帧和文本交替序列、网页上的图像和文本交替序列,以及大规模的图像和文本对和视频和文本对。Emu 可以作为多功能多模态接口,支持图像到文本和文本到图像的任务,并支持上下文中的图像和文本生成。在广泛的零/很少样本任务中,例如图像标题、视觉问题回答、视频问题回答和文本到图像生成任务,Emu 在最先进的大型多模态模型之上表现出优异的性能。此外,Emu 还展示了出色的扩展能力,例如通过指令微调实现多模态助手。


如何使用ChatPaper?

使用ChatPaper的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入ChatPaper页面。
在这里插入图片描述

在ChatPaper页面中,可以选择基于单篇文献进行对话和基于全库(个人文献库)对话,可选择上传本地PDF或者直接在AMiner上检索文献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6686.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

雷军谈人生低谷,刘强东“卸任”后“整顿”京东,AI 引领技术热潮 | 2022 科技圈那些事

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 2023 年的钟声已经敲响,回顾 2022 年,新兴技术在蓬勃发展,热点趋势不断出现,在潜移默化中给我们工作、学习和生活带来了许多的变化。 这…

长虹电视将搭载AI大模型;我国新型城际市域智能列车在青岛问世;百度盲人导航眼镜专利获授权丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 周杰伦与中国移动开启元宇宙合作:推出数智人“周同学” 中国移动动感地带与周杰伦合作20周年暨周同学元宇宙合作发布会于5月8日举行,在发布会上周杰伦与中国移动共同推出了数智人“周同学…

ChatGPT4通道开放接入基于OPEN AI 平台你的任何APP 可一键接入AI 智能

你一定很好奇什么是 OPEN AI快速开发平台 顾名思义,开放的OPEN AI平台。 基于这个平台你的上层应用,如何 APP,小程序,H5,WEB, 公众号,任何一切终端都可以轻松接入,AI智能应用。 开发初衷 爆肝一周,我开源了ChatGPT 中文版接口&a…

复旦发布类ChatGPT模型Moss;OpenAI回应ChatGPT不向中国用户开放;Linux 6.2 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

ChatGPT消灭全球3亿打工人!高盛重磅预测:25%岗位将被AI取代

来源丨新智元 点击进入—>3D视觉工坊学习交流群 【导读】高盛又发报告称,全球3亿打工人恐被AI替代。从前,是给员工配电脑,现在,是给电脑配员工。 上周,OpenAI刚发了一篇让打工人瑟瑟发抖的论文,预言80%美…

奖项公布|Sui Demo Day香港站获胜者名单新鲜出炉

由Sui基金会举办的Sui Builder House香港站于4月16日圆满收官,为期三天的活动吸引了来自全球各地的区块链专业人士和Sui生态项目/爱好者前来参加。 Sui Demo Day在Sui Builder House香港站的最后一天(4月16日)举办,旨在为Sui生态中…

ChatGPT类工具如何实现「降维打击」| 聊天机器人闭门研讨观点总结

导读 随着ChatGPT出现,语言大模型的进步与对话交互方式相结合,正在搅动科研、产业,以及普通人的想象力。我们对智能的探索是正在步入决胜之局,还是仍在中场酣战;是需要精巧完备的一致系统,还是可以遵循实效…

Python ChatGPT API 新增的函数调用功能演示

文章目录 一、前言二、主要内容三、总结 🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 一、前言 OpenAI 重磅更新,API 添加函数调用能力,能处理更长上下文,价格又有所降低 … 知乎讨论:https://www.zh…

3 天,入门 TAURI 并开发一个跨平台 ChatGPT 客户端

TAURI 是什么 TAURI 是一个使用 Rust 编写的程序框架,它允许我们使用 Web 技术和 Rust 语言构建跨端应用。它提供了大量特性,例如系统通知、网络请求、全局快捷键、本地文件处理等,它们都可以在前端通过 JavaScript 便捷的调用。 TAURI 应用…

chatgpt|安装及示例|聊天|嵌入|微调|适度|图像|音频|异步|API 错误代码-OpenAI Python库简介

文章目录 OpenAI Python库安装可选依赖项 用法参数微软 Azure 端点微软 Azure 活动目录身份验证命令行界面 示例代码聊天嵌入微调适度 图像生成 (DALLE)音频转录(Whisper)异步API要求信用TIPS:OpenAI API 错误代码API 错误状态码 概述详细解释 OpenAI Python库 项目git地址 O…

Python和ChatGPT在一起了

👉 Python练手必备👉 Python毕设实战项目👉 Python爬虫实战必备👉 30款Python小游戏附源码👉 Python清理微信单向好友神器

chatgpt赋能python:Python支持跨平台软件开发

Python支持跨平台软件开发 作为一种高级编程语言,Python 以其丰富的库和跨平台支持而备受开发人员欢迎。Python 通过将应用程序的可移植性最大化,使得开发人员可以轻松地在不同的操作系统平台上构建和部署软件。 跨平台支持 Python 支持各种不同的操作…

ChatGPT今日正式开放API服务中小企业

开放隐私计算 开放隐私计算 开放隐私计算OpenMPC是国内第一个且影响力最大的隐私计算开放社区。社区秉承开放共享的精神,专注于隐私计算行业的研究与布道。社区致力于隐私计算技术的传播,愿成为中国 “隐私计算最后一公里的服务区”。 183篇原创内容 公…

chatGPT python API

import requests import os # 设置代理服务器地址和端口号 proxies { "https": "http://127.0.0.1:9910", "http": "http://127.0.0.1:9910" } # 设置API密钥和API请求 API_KEY "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"…

[语音信号处理] 说话人转换 voice conversion .CycleGANVC .StarGANVC .

语音信号处理的总体结构 从这个总体结构可以看出:无论是语音识别,还是语音编码与合成,输入的语音信号首先要进行预处理。 预处理 对信号进行适当放大和增益控制,并进行反混叠滤波来消除工频信号的干扰。 数字化 将模拟信号转…

【Google语音转文字】Speech to Text 超级好用的语音转文本API

前面有一篇博客说到了讯飞输入法,支持语音输入,也支持电脑内部音源输入,详细参考:【实时语音转文本】PC端实时语音转文本(麦克风外音&系统内部音源) 但是它只是作为一个工具来使用,如果我们想自己做一些好玩的东西…

Stable Diffusion +ChatGPT+文本转语音+剪映制作视频

目录 chatgpt免费体验入口网址 模型下载 huggingface.co civitai.com 使用Deliberate模型案例 StableDeffusion做的图片,chatGPT出的文案,微软文本转语音配的音,使用剪映做的视频 chatgpt免费体验入口网址 http://chat.xutongbao.top …

语音怎么转换成文字?分享两种语音转文字的方法

怎么把语音文件中的内容转换成文字呢?大家在日常的学习和办公过程中,在遇到一些重要内容或者是讲话,是不是会有将它录成语音的经历?因为这样会方便我们及时记录一些重要的内容,但当我们整理语音时,还要一句…

OpenAI-ChatGPT最新官方接口《语音智能转文本》全网最详细中英文实用指南和教程,助你零基础快速轻松掌握全新技术(六)(附源码)

Speech to text 语音智能转文本 Introduction 导言Quickstart 快速开始Transcriptions 转录python代码cURL代码 Translations 翻译python代码cURL代码 Supported languages 支持的语言Longer inputs 长文件输入Prompting 提示其它资料下载 Speech to text 语音转文本 Learn how…

学术界的期刊编辑如何识别通过 ChatGPT 编写出来的论文?

最近 ChatGPT 风靡全球,国外也有不少大学生使用 ChatGPT 来撰写论文,这给学术出版界的期刊编辑识别以 ChatGPT 为代表的人工智能写作出来的文章带来了很大的挑战。 咱们国内有一句古话:道高一尺,魔高一丈。 学术出版界的期刊编辑…