今日必读的9篇大模型论文

在这里插入图片描述

1.来自普林斯顿大学的研究团队及其合作者提出了 TutorEval 和 TutorChat。TutorEval 是首个结合了长上下文、自由形式生成和跨学科科学知识的基准,它有助于衡量 LMs 作为科学助手在现实生活中的可用性。TutorChat 是一个包含 80000 篇关于教科书的长篇合成对话的数据集,用于对带有 7B 和 34B 参数的 Llemma 模型进行微调。

论文链接:
https://arxiv.org/abs/2402.11111
项目地址:
https://github.com/princeton-nlp/LM-Science-Tutor

2.来自南洋理工大学、清华大学、微软公司、加州大学和新加坡管理大学的研究团队提出了一种新的任务设置——工具增强的科学推理。它利用可扩展的工具集对大模型进行补充。研究团队构建了一个包含超过 30000 个样本和大约 6000 种工具的名为 MathFunc 的工具增强训练语料库,并在其基础上开发了 SciAgent,用于检索、理解并在必要时使用工具解决科学问题。

论文链接:
https://arxiv.org/abs/2402.11451

3.来自复旦大学的研究团队提出了一种基于多智能体协作的方法——LongAgent,它可以将 LLMs(如 LLaMA)扩展到 128K 的上下文。LongAgent 为长文本处理提供了新的选择。与 GPT-4 相比,使用 LLaMA-7B 的智能体团队在 128k 长文本检索、多跳问答等任务中取得了显著改进。

论文链接:
https://arxiv.org/abs/2402.11550

4.来自复旦大学、Multimodal Art Projection(MAP)和上海人工智能实验室的研究团队提出了一种任意对任意(any-to-any)的多模态语言模型——AnyGPT,它利用离散表示统一处理包括语音、文本、图像和音乐在内的各种模态。

论文链接:
https://arxiv.org/abs/2402.12226
项目地址:
https://junzhan2000.github.io/AnyGPT.github.io/

5.来自不列颠哥伦比亚大学和 Invertible AI 的研究团队提出了一套基于 Mistral-7b 模型构建的、为金融分析定制的最新多模态大型语言模型(LLMs)——FinTral。FinTral 模型采用先进的工具和检索方法进行直接偏好优化训练,显示出卓越的零样本性能,它在所有任务中的表现都优于 ChatGPT-3.5,并在九个任务中的五个任务中超过了 GPT-4。

论文链接:
https://arxiv.org/abs/2402.10986

6.由于训练数据中英语语料库的主导地位,大型语言模型(LLMs)倾向于偏重某些文化。来自微软公司和中科院软件研究院的研究团队提出了一种将文化差异纳入 LLM 的经济高效的解决方案——CultureLLM。在 60 个与文化相关的数据集上进行的广泛实验表明,CultureLLM 的性能明显优于 GPT-3.5 (高出8.1%)和 Gemini Pro(高出9.5%)等同类产品,并与 GPT-4 的性能相当甚至更好。

论文链接:
https://arxiv.org/abs/2402.10946

7.Google DeepMind 提出了对机器人代码编写 LLMs 进行微调来记住它们在上下文中的交互,并提高它们的可教性——它们适应人类输入的效率(以用户认为任务成功之前的平均修正次数来衡量)。

论文链接:
https://arxiv.org/abs/2402.11450
项目地址:
https://robot-teaching.github.io/

8.自然界是无限分辨率的。现有的扩散模型(如Diffusion Transformers)在处理其训练领域之外的图像分辨率时往往面临挑战。为此,来自上海人工智能实验室的研究团队及其合作者提出了一个专门用于生成无限制分辨率和长宽比图像的 Transformer 架构——Flexible Vision Transformer(FiT)。

论文链接:
https://arxiv.org/abs/2402.12376
项目地址:
https://github.com/whlzy/FiT

9.来自清华大学、密西根大学和香港大学的研究团队提出了一个基于现有心理理论的基准——EmoBench。EmoBench 包括一套 400 道人工精心设计的中英文问题。研究表明,现有 LLMs 的情感指数与普通人之间存在相当大的差距。

论文链接:
https://arxiv.org/abs/2402.12071
项目地址:
https://github.com/Sahandfer/EmoBench

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/260976.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mybatis | 初识Mybatis

初识Mybatis 目录: 初识Mybatis什么是Mybatis?Hibernate 和 MyBatis的区别?Mybatis的下载和使用Mybatis的工作原理 作者简介 :一只大皮卡丘,计算机专业学生,正在努力学习、努力敲代码中! 让我们一起继续努力学习&#…

第3.1章:StarRocks数据导入——Insert into 同步模式

一、概述 在StarRocks中,insert的语法和mysql等数据库的语法类似,并且每次insert into操作都是一次完整的导入事务。 主要的 insertInto 命令包含以下两种: insert into tbl select ...insert into tbl (col1, col2, ...) values (1, 2, ...…

2024-02-21(Spark)

1.Spark程序中的相关端口 4040:是一个运行的Application在运行的过程中临时绑定的端口,用以查看当前任务的状态。4040被占用会顺延到4041,4042等。4040是一个临时端口,当前程序运行完成后,4040就会被注销。 4040和Dr…

防火墙——计算机网络

前述基于密码的安全机制不能有效解决以下安全问题: 用户入侵: 利用系统漏洞进行未授权登录; 授权用户非法获取更高级别权限等。 软件入侵: 通过网络传播病毒、蠕虫和特洛伊木马。 拒绝服务攻击等。 解决方法: 防火墙&a…

基于多种机器学习模型的西北地区蒸散发模拟与趋势分析_季鹏_2023

基于多种机器学习模型的西北地区蒸散发模拟与趋势分析_季鹏_2023 摘要关键词 1 资料和方法1. 1 研究区域与观测数据1. 2 机器学习模型构建与验证方法1. 3 SHAP 可解释性方法 2 主要结果2. 1 不同模型的模拟性能和泛化能力2. 2 不同模型的可解释性分析2. 3 5 km 分辨率格点蒸散发…

Linux内核解读

来自鹅厂架构师 作者:aurelianliu 工作过程中遇到的调度、内存、文件、网络等可以参考。 1.os运行态 X86架构,用户态运行在ring3,内核态运行在ring0,两个特权等级。 (1)内核、一些特权指令,例…

强化学习(GPS)

GPS——Guided Policy Search引导策略搜索 GPS目前被作为基础算法广泛应用于各种强化学习任务中,其出发点在于纯粹的策略梯度方法在更新参数时不会用到环境模型因而属于一种无模型强化学习算法。由于没有利用任何环境的内在属性,使得其训练只能完全依靠…

【开源】在线办公系统 JAVA+Vue.js+SpringBoot+MySQL

目录 1 功能模块1.1 员工管理模块1.2 邮件管理模块1.3 人事档案模块1.4 公告管理模块 2 系统展示3 核心代码3.1 查询用户3.2 导入用户3.3 新增公告 4 免责声明 本文项目编号: T 001 。 \color{red}{本文项目编号:T001。} 本文项目编号:T001。…

Docker Compose映射卷的作用是什么,dockerfile这个文件有什么区别和联系?

Docker Compose中映射卷(Volumes)的作用和Dockerfile之间既有区别也有联系。下面详细解释两者的作用、区别和联系: Docker Compose映射卷的作用 在Docker Compose中,卷(Volumes)用于数据持久化和数据共享…

沁恒CH32V30X学习笔记11---使用外部时钟模式2采集脉冲计数

使用外部时钟模式2采集脉冲计数 使用外部触发模式 2 能在外部时钟引脚输入的每一个上升沿或下降沿计数。将 ECE 位置位时,将使用外部时钟源模式 2。使用外部时钟源模式 2 时,ETRF 被选定为 CK_PSC。ETR 引脚经过可选的反相器(ETP),分频器(ETPS)后成为 ETRP,再经过滤波…

Excel练习:日历

Excel练习:日历 ‍ 题目:制作日历 ‍ ​​ 用rows和columns函数计算日期单元格偏移量 一个公式填充所有日期单元格 ​​ ‍

PyTorch使用Tricks:学习率衰减 !!

文章目录 前言 1、指数衰减 2、固定步长衰减 3、多步长衰减 4、余弦退火衰减 5、自适应学习率衰减 6、自定义函数实现学习率调整:不同层不同的学习率 前言 在训练神经网络时,如果学习率过大,优化算法可能会在最优解附近震荡而无法收敛&#x…

LDRA Testbed软件静态分析_软件质量度量

系列文章目录 LDRA Testbed软件静态分析_操作指南 LDRA Testbed软件静态分析_自动提取静态分析数据生成文档 LDRA Testbed软件静态分析_Jenkins持续集成_(1)自动进行静态分析的环境搭建 LDRA Testbed软件静态分析_Jenkins持续集成_(2)配置邮件自动发送静态分析结果 LDRA Testb…

Qt C++春晚刘谦魔术约瑟夫环问题的模拟程序

什么是约瑟夫环问题? 约瑟夫问题是个有名的问题:N个人围成一圈,从第一个开始报数,第M个将被杀掉,最后剩下一个,其余人都将被杀掉。例如N6,M5,被杀掉的顺序是:5&#xff…

离线升级esp32开发板升级包esp32-2.0.14(最新版已经3.0alpha了)

1.Arduino IDE 2.3.2最新 2024.2.20升级安装:https://www.arduino.cc/en/software 2.开发板地址 地址(esp8266,esp32) http://arduino.esp8266.com/stable/package_esp8266com_index.json,https://raw.githubusercontent.com/espressif/arduino-esp32…

09MARL深度强化学习policy gradient

文章目录 前言1、Multi-Agent Policy Gradient Theorem2、Centralised State-Value Critics2、Centralised Action-Value Critics 前言 Independent learning算法当中每个智能体看待其他智能体为环境的一部分,加剧了环境非平稳性,而CTDE框架的算法能够降…

HTTP的详细介绍

目录 一、HTTP 相关概念 二、HTTP请求访问的完整过程 1、 建立连接 2、 接收请求 3、 处理请求 3.1 常见的HTTP方法 3.2 GET和POST比较 4、访问资源 5、构建响应报文 6、发送响应报文 7、记录日志 三、HTTP安装组成 1、常见http 服务器程序 2、apache介绍和特点 …

工具分享:在线键盘测试工具

在数字化时代,键盘作为我们与计算机交互的重要媒介之一,其性能和稳定性直接影响到我们的工作效率和使用体验。为了确保键盘的每个按键都能正常工作,并帮助用户检测潜在的延迟、连点等问题,一款优质的在线键盘测试工具显得尤为重要…

QT设置窗口随窗体变化(窗口文本框随窗体的伸缩)

目录 1.建立新窗口2.最终效果 1.建立新窗口 1)在窗体中创建一个 textBrowser,记录坐标及宽高 X-100 Y-130 宽-571 高-281,窗体宽高800*600; 2)在.h头文件中插入void resizeEvent(QResizeEvent *event) override;函数 …

如何系统地自学Python?

如何系统地自学Python? 如何系统地自学Python?1.了解编程基础2.学习Python基础语法3.学习Python库和框架4.练习编写代码5.参与开源项目6.加入Python社区7.利用资源学习8.制定学习计划9.持之以恒总结 如何系统地自学Python? 作为一个Python语…