AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊

一周SOTA:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊

文章目录

    • 1. LMSYS Org发布LongChat,上下文碾压64K开源模型
    • 2. 北大团队发布法律大模型 ChatLaw
    • 3. 扁鹊:指令与多轮问询对话联合微调的医疗对话大模型

1. LMSYS Org发布LongChat,上下文碾压64K开源模型

最近UC伯克利主导的LMSYS Org发布了大语言模型排位赛,刷新了大家对当下比较出名的开源和「闭源」聊天机器人的认识。

传送门:UC伯克利LLM排行榜再更新!GPT-4稳居第一,Vicuna-33B登顶开源模型第一

6月29日,来自LMSYS Org的研究人员发布了两个支持16k token上下文长度的开源大模型LongChat-7B和LongChat-13B,并测试了几个支持长上下文能力的几个大模型的实际表现。

目前支持长上下文的开源大模型已经有支持65K的 MPT-7B-storyteller 和32K的ChatGLM2-6B,闭源大模型比如 Claude-100K and GPT-4-32K,但LMSYS Org的研究人员还是选择通过测试来印证它们是「李鬼」还是「李逵」。

如何迅速有效地确认一个新训练的模型是否能够真地有效处理预期的上下文长度?

为了解决这个问题,研究团队可以基于需要LLM处理长上下文的任务进行评估,例如文本生成、检索、摘要和长文本序列中的信息关联。

研究人员们设计了一个名为LongEval的长上下文测试套件,包括两个难度不同的任务,提供了一种简单快捷的方式来衡量和比较长上下文的性能。

任务一:粗粒度主题检索
研究团队使用主题检索任务来模拟长对话中讨论会在多个主题之间跳转的场景。

这个任务会要求聊天机器人检索由多个主题组成的长对话中的第一个主题,测试模型是否能够定位长下文中的一段文本并将其与正确的主题名称相关联。

在这里插入图片描述

任务二:细粒度检索

为了进一步测试模型在长对话中定位和关联文本的能力,研究人员引入了更精细的行检索测试(Line Retrieval test)。在这个测试中,聊天机器人需要精确地从长文档中检索一个数字,而不是从长对话中检索一个主题。

在这里插入图片描述

LMSYS Org的研究人员考虑了4款开源和2款闭源大模型。

在这里插入图片描述

图注:表1:模型规格

根据粗粒度的主题检索测试结果(如下图),可以发现:

  • 开源的长上下文模型的性能似乎没有宣传的那么好。例如,Mpt-7b-storywriter声称其上下文长度为84K,但即使在其声称的上下文长度(16K)的五分之一时,也只能勉强达到50%的准确率。
  • ChatGLM2-6B在长度为 6K 时无法可靠地检索到第一个话题(仅46%的准确率),当在大于 10K 的上下文长度上进行测试时,其准确率几乎为0%。
  • LongChat-13B-16K模型能可靠地检索到第一个主题,其准确率与gpt-3.5-turbo相当。
  • 闭源的商业长上下文模型很能打,在长距离主题检索任务上,gpt-3.5-16K 和 Anthropic Claude 的基准测试几乎都达到了完美的性能。

在这里插入图片描述

图注:(任务一:粗粒度主题检索)在长距离主题检索任务上比较LongChat与其他模型

更细粒度的行检索测试中,可以发现:

  • Mpt-7b-storywriter的表现甚至比粗粒度的情况更差,准确率从约50%下降到约30%。
  • ChatGLM2-6B也出现下降,在最短长度(5K上下文长度)上表现不佳(准确率为32%)。
  • 相比之下,LongChat-13B-16K表现可靠,在12K上下文长度内实现了接近gpt-3.5/Anthropic-claude的能力。

在这里插入图片描述

图注:(任务二:细粒度检索)长距离行检索任务的准确率

LongChat 通过压缩旋转嵌入技术,对从 ShareGPT 收集的用户共享对话分别微调 llama-7b、llama-13b 得到。评估结果表明,LongChat-13B 的远程检索准确性比其他长上下文模型高出 2 倍,包括 MPT-7B-storywriter(65K)、MPT-30B-chat(8K)和 ChatGLM2-6B(32k)。

LongChat模型在长距离检索任务上表现良好,但这是否会导致人类偏好显著下降呢?

研究人员使用了GPT-4评分的MT-bench测试LongChat是否仍然符合人类的偏好。结果发现:

  • LongChat-13B-16K 与其最接近的替代模型Vicuna-13B相比,确实在MT-Bench分数上略有下降,但在可接受的范围内,这表明这种长距离能力并没有显著牺牲其短距离能力。
  • LongChat-13B-16K 与其他相同规模的模型(Baize-v2-13B, Nous-Hermes-13B, Alpaca-13B)相比也具有竞争力。

在这里插入图片描述

图注:表2. LongChat-13B与其他类似规模的模型比较MT-bench得分

2. 北大团队发布法律大模型 ChatLaw

北大团队发布了首个中文法律大模型落地产品ChatLaw,为大众提供普惠法律服务。模型支持文件、语音输出,同时支持法律文书写作、法律建议、法律援助推荐。

ChatLaw 是一个法律大型语言模型,可以集成外部知识库,并基于姜子牙-13B 和 Anima-33B 进行训练,具有较强的逻辑推理能力。

目前开源了三个模型型号:ChatLaw-13、ChatLaw-33B、ChatLaw-Text2Vec。

  • ChatLaw-13B 是学术 demo 版,中文表现良好,但在逻辑复杂的法律问答方面效果不佳,需要使用更大参数的模型。
  • ChatLaw-33B 是学术 demo 版,逻辑推理能力大幅提升,但由于语料库过少,会出现英文数据。
  • ChatLaw-Text2Vec 使用 93w 条判决案例做成的数据集基于 BERT 训练了一个相似度匹配模型,可以将用户提问信息和对应的法条相匹配。

论文地址:https://arxiv.org/abs/2306.16092
开源地址:https://github.com/PKU-YuanGroup/ChatLaw
官方地址:https://www.chatlaw.cloud/

在这里插入图片描述

Q1_batch.mp4

ChatLaw 法律大型语言模型

3. 扁鹊:指令与多轮问询对话联合微调的医疗对话大模型

扁鹊是一个中文医疗对话模型,当前发布两个版本 扁鹊-1.0 和 扁鹊-2.0。相比常见开源医疗问答模型,扁鹊更注重多轮交互中用户描述不足的情况,定义了询问链并强化了建议和知识查询能力。

  • 扁鹊-1.0 是一个经过指令与多轮问询对话联合微调的医疗对话大模型,使用超过 900 万条样本的中文医疗问答指令与多轮问询对话混合数据集训练得到。
  • 扁鹊-2.0 则基于扁鹊健康大数据 BianQueCorpus,选择 ChatGLM-6B 作为初始化模型,经过全量参数的指令微调训练得到,并扩充了药品说明书指令、医学百科知识指令以及 ChatGPT 蒸馏指令等数据,强化了模型的建议与知识查询能力。

在这里插入图片描述

开源地址:https://github.com/scutcyr/BianQue
HuggingFace地址:https://huggingface.co/spaces/scutcyr/BianQue

该项目由华南理工大学未来技术学院-广东省数字孪生人重点实验室发起的,开源了中文领域生活空间主动健康大模型基座ProactiveHealthGPT,包括:(1) 经过千万规模中文健康对话数据指令微调的生活空间健康大模型扁鹊 (BianQue) ;(2) 经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心 (SoulChat)

在这里插入图片描述

图注:中文领域生活空间主动健康大模型基座ProactiveHealthGPT

模型开源链接如下:

扁鹊 (BianQue):https://github.com/scutcyr/BianQue
灵心 (SoulChat):https://github.com/scutcyr/SoulChat

在这里插入图片描述

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

参考:
https://lmsys.org/blog/2023-06-29-longchat/
https://www.zhihu.com/question/610072848/answer/3101663890
https://www.chatlaw.cloud/
https://www.163.com/dy/article/I70BJ9U00552UJUX.html
https://github.com/scutcyr/BianQue
https://www.ppmy.cn/news/52419.html?action=onClick

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/34899.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pta中级题库

目录 7-1 三个整数排序 7-3 求数列前n项之和 7-4 求一组数据的平均值 7-5 输出图形 7-6 一行字符变换 7-7 sdut- C语言实验——删除指定字符 7-35 二维数组中每行最大值和每行和 7-36 矩阵转置 7-38 二维数组元素变化 7-39 沙漏图形 7-40 连接两个字符串 7-41 统计…

基于等照度线和窗口匹配的图像修补算法

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 一、关于图像修补 图像修补的目的是基于已有的图像信息或数据库内信息,对缺失区域进行合理地修复。在诸多领域如电影、…

pyecharts-Timeline讲解时间线

Pyecharts----Timeline (*^▽^*) 作者:发现美的眼睛(本人) 首先简单介绍一下pyecharts这个神奇的东东,如果你是从事web,那么Echarts就会熟悉知晓。 ——如果不是,那么这篇文章也会推荐一个非常好的&#x…

计算机网络英语作文150字,微信投票的英语,写一篇关于网络投票看法的英语作文150字左右...

你好微信投票的 Should students make friends online? Some people say yes Internet helps people make many friends Chatting on line, students can express their feelings and opinions more freely, and even get help for their foreign language studies Others, ho…

关于计算机500字英语作文,小学英语作文500字(共8篇)

小学英语作文500字由好范文网的会员“迈和”投稿精心推荐,小编希望以下多篇范文对你的学习工作能带来参考借鉴作用。 第1篇:小学英语作文500字 猜你正在找小学英语作文500字的怎么写?那么就给你这篇范文参考。 Im a happy girl.my english na…

关于计算机500字英语作文,500字英语作文范文

3 500字英语作文范文二 Protecting the Intangible Cultural Heritages Like tangible cultural heritages such as the Great Wall and the Forbidden City, intangible cultural heritages like Peking Opera and Confucius-commemorating rituals are equally crucial. We s…

Yarp项目代理ChatGPT,解决网络无法访问openAI的问题

1.创建Yarp项目 目的:通过代理解决网络无法访问openAI的问题 项目源码地址:https://github.com/raokun/YarpProject 1.创建.net7 webapi项目 创建一个webapi项目 2.搜索安装nuget包 1.搜索最新的Yarp.ReverseProxy包 https://www.nuget.org/package…

GPT-4 价值 20 美金的回复:是拯救还是毁灭?

编者注 - 周末闲着无聊,我们分别对比研究了 ChatGPT 2、3、4 版本的对话内容,结果发现,相较于前两个版本,第四版的精准度确实有所提高,但ChatGPT - 4 需要付费 20 美金。为了让这个发现更加有趣,我从网上挑…

【解决密码栏不显示】“可能是其他人在试图访问您的google账号....”

背景:Google浏览器上的账号自动退出了。 起因:自己又记成了邮箱的密码,多输入了几次,导致账号被锁不显示密码栏。 经过: 一、网上找了很多方法,有①重置②卸载等 二、我只重置了,但未卸载&a…

ORACLE锁定账户的原因及解决办法

工作中,发现一个ORACLE用户被锁定,查看状态如下图: profile可以用来对用户所能使用的数据库资源进行限制 查看monitor使用的profile: SELECT PROFILE FROM DBA_USERS WHERE USERNAMEMONITOR;结果如下: 查看对应的pro…

当提示“当前帐户被锁定,可能无法登录”时,如何解锁帐户?

解锁帐户的方法 错误提示解锁方法等待30分钟移除账户锁定阈值检查DNS设置设置密码永不过期清除缓存的凭据域环境中的帐户解锁错误提示 在登录电脑时,有时会出现如下登录错误的提示,我们可以按照以下几个方法来解锁账号。 解锁方法 等待30分钟 有一个设置用于配置输入错误…

关于oracle账户被锁定的解决办法

1.win r,输入cmd 2.输入sqlplus/nolog 3.输入conn/as sysdba 4.输入解锁语句:alter user 用户名 account unlock; 5.然后退出,输入用户名,密码,重新连接数据库成功

算力单位详解

TOPS TOPS是Tera Operations Per Second的缩写,1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作。 与此对应的还有GOPS(Giga Operations Per Second),MOPS(Million Operation Per Second&…

到底什么是“算力”?

转载:到底什么是“算力”? 作者:小枣君 来源:鲜枣课堂(ID:xzclasscom) 这两年,算力可以说是ICT行业的一个热门概念。在新闻报道和大咖演讲中,总会出现它的身影。 那么&a…

ETH挖矿显卡算力大全

大家买显卡挖ETH,肯定最关心算力了,这里我整理一版,供大家参考,目前只有主流的整理上了,后期会完善更多的供大家参考! 欢迎大家加入大力矿工群:621159725 软件下载:百度云盘链接…

GPU算力平台对比

对InsCode、智星云、恒源云、AutoDL以RTX 3090进行对比。 InsCode InsCode:https://inscode.csdn.net/gpu?utm_source260232576&spm1001.2014.3001.8290 智星云 智星云:http://gpu.ai-galaxy.cn/store?applicationAI%E4%BA%91%E5%AE%B9%E5%99…

世界超算最新排名出炉!

本文转载自程序员极客实验室 【导读】全球最新的超级计算机排名出炉,在TOP10榜单上变化不大,日本富岳凭借着领先第二名3倍的算力继续霸榜,不过从技术趋势来看,却有了新的变化。 在德国法兰克福举行的国际超级计算大会上&#xf…

【教程】腾讯云轻量应用服务器搭建聊天室

前言 前些日子听朋友说,他们领的腾讯云轻量246还在吃灰,我在萌备聊天室里看见了这个系统 感觉挺不错 那这篇文章就教大家用宝塔来搭建一个聊天室 介绍 Fiora系统非常简洁,而且也有很多功能,基于 node.js, mongodb, react 和 so…

云服务器搭建全过程(阿里云、腾讯云等...通用)

云主机LNMP环境搭建详解(CentOS 6.9 64位系统) 一、登录云主机 当购买云主机后会得到如下云主机信息 1.公网ip (这里假设为 123.124.124.125 )2.登录云主机的密码(这里假设为 123456 ) 注: …

手把手带大家搭建一台服务器(腾讯云为例)

今天带大家入门如何搭建服务器,主要是面向小白读者。先说好,我自己也不是专业做后端的,只不过平时爱折腾点项目玩玩,所以有点小经验,本文就是基于这点小经验讲解的,如有不当之处还请谅解。 一、什么是服务器…