ChatGPT全球最大开源平替:回复更受欢迎,但中文对话一塌糊涂

关注并星标

从此不迷路

计算机视觉研究院

abbf4fc00306d6262599286eddeefe56.gif

ecce8a2c35d1ee76f9432dbd6e9ed2a2.gif

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

在众多开源项目中脱颖而出,OpenAssistant 有两把刷子。

转自《机器之心》

事实证明,将大型语言模型 (LLM) 与人类偏好保持一致可以显著提高可用性,这类模型往往会被快速采用,如 ChatGPT 所证明的那样。监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 等对齐技术大大减少了有效利用 LLM 功能所需的技能和领域知识,从而提高了它们在各个领域的可访问性和实用性。

然而,像 RLHF 这样最先进的对齐技术依赖于高质量的人工反馈数据,这些数据的创建成本很高,而且通常仍然是专有的。

为了使大规模对齐研究民主化,来自 LAION AI 等机构(Stable diffusion 使用的开源数据就是该机构提供的。)的研究者收集了大量基于文本的输入和反馈,创建了一个专门训练语言模型或其他 AI 应用的多样化和独特数据集 OpenAssistant Conversations。

该数据集是一个由人工生成、人工注释的助理式对话语料库,覆盖了广泛的主题和写作风格,由 161443 条消息组成,分布在 66497 个会话树中,使用 35 种不同的语言。该语料库是全球众包工作的产物,涉及超过 13500 名志愿者。对于任何希望创建 SOTA 指令模型的开发者而言,它都是一个非常宝贵的工具。并且任何人都可以免费访问整个数据集。

此外,为了证明 OpenAssistant Conversations 数据集的有效性,该研究还提出了一个基于聊天的助手 OpenAssistant,其可以理解任务、与第三方系统交互、动态检索信息。可以说这是第一个在人类数据上进行训练的完全开源的大规模指令微调模型。

结果显示,OpenAssistant 的回复比 GPT-3.5-turbo (ChatGPT) 更受欢迎。

6cf786444c5261d06463dcdc138ecd07.png

  • 论文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

  • 项目地址:https://github.com/LAION-AI/Open-Assistant

  • 数据集地址:https://huggingface.co/datasets/OpenAssistant/oasst1

  • 体验地址:https://open-assistant.io/chat‍

网友表示:做得好,超越 OpenAI(抱歉是 Closed AI)。

4a1d5d73e1912eb4d38142af45ab58a9.png

研究介绍

OpenAssistant Conversations 的基本数据结构是会话树 (Conversation Tree, CT),其中的节点表示会话中的消息。

53d235dee00311c0a9dd910e5930ceec.png

OpenAssistant Conversations 数据是使用 web-app 界面收集的,包括 5 个步骤:提示、标记提示、将回复消息添加为提示器或助手、标记回复以及对助理回复进行排名。

cb2be05c805a0dda7c3d614e27d0f450.png

下图为 OpenAssistant Conversations 数据集语言分布,主要以英语和西班牙语为主:

a3b41ca63066c5c4040b9df9ecdf8b55.png

实验结果

指令微调

为了评估和证明 OpenAssistant Conversations 数据集的有效性,研究者专注于基于 Pythia 和 LLaMA 的微调语言模型。其中 Pythia 是一个具有宽松开源许可的 SOTA 语言模型,而 LLaMA 是一个具有定制非商业许可的强大语言模型。

对此,研究者发布了一系列微调语言模型,包括指令微调的 Pythia-12B、LLaMA-13B 和 LLaMA-30B,这是他们迄今最大的模型。研究者将分析重心放在了具有开源属性的 Pythia-12B 模型上,使得它可以被广泛访问并适用于各种应用程序。

为了评估 Pythia-12B 的性能,研究者展开了一项用户偏好研究,将其输出与 OpenAI 的 gpt-3.5-turbo 模型进行比较。目前已经有 7,042 项比较,结果发现 Pythia-12B 对 gpt-3.5-turbo 的胜率为 48.3%,表明经过微调的 Pythia 模型是非常具有竞争力的大语言模型。

偏好建模

除了指令微调模型之外,研究者还发布了基于 Pythia-1.4B 和 Pythia-12B 的经过训练的奖励模型。利用在真实世界数据上训练的奖励模型可以为用户输入带来更准确和自适应的响应,这对于开发高效且对用户友好的 AI 助手至关重要。

研究者还计划发布经过人类反馈强化学习(RLHF)训练的 LLaMA-30B,这种方法可以显著提升模型性能和适应性。不过,基于 RLHF 方法的模型开发与训练正在进行中,需要进一步努力确保成功地整合进来。

有毒信息

研究者采取基于 Detoxify 的毒性检测方法来获得六个不同类别的自动评级,分别是有毒、色情、威胁、侮辱、攻击性、露骨言论。使用自动毒性评级,研究者系统地评估了人工指定毒性标签(如仇恨言论、不恰当和色情)的级别。并且基于 115,153 条消息样本,他们计算了自动与人工注释毒性标签之间的相关性,如下图 5 所示。

84fa744223aefe72ad129cadc3b34dcd.png

与 GPT-3.5(ChatGPT)的比较

我们来看几组 OpenAssistant 与 GPT-3.5 的生成结果比较。比如「单词 barn 的词源 / 起源是什么?」可以看到,OpenAssistant 解释地更详细、全面。

e4413fb06c68aea35c164b0dd707e1d6.png

再比如输入「你现在是一个普通的人类。请介绍一下你自己并告诉我一些你的日常生活。」OpenAssistant 代入了普通人类的角色,GPT-3.5 显然没有,还是以 AI 语言模型自居。

3d82ba1ae7eb7b7f9adcfbb108a7b8bb.png

最后输入「如何创建一个成功的 YouTube 频道,从开发一个利基市场到创建内容以建立一个社区并货币化频道?」OpenAssistant 的回答相对而言更有条理性。

21f5456140a653438412b07d89399ac7.png

体验下来,中文不太行

目前的 Open Assistant 基于「OA_SFT_Llama_30B」模型,最大新 token 的数量为 1024,支持了英文、中文、日语等数十种语言。

4593e09e5678b1df5423f248cf58ee47.png

先让它做一下自我介绍。

49e72828d6e0f4fc00bbb31eb7d340e9.png

然而在中文对话体验中发现,有时输入中文,但输出的仍是英文。比如「用中文写一首关于春天的诗歌」。

c8ae5616ecc10630931679374c744a4f.png

除了有时无法输出中文之外,中文百科知识方面也表现不佳。比如「介绍一下李白和杜甫」。

c33608016c8f580d23bbdeeffb2c527c.png

再比如「鲁智深是红楼梦中的角色,你觉得对吗」,人名和出处都搞错了。

35840948b76ae059852d937d86dd2e4e.png

另外在中英互译方面也不太好使。

949c3e5f5355ec6434c3432d0efadb11.png

9a99080851a81c2c1b6a3f4fa8d337f8.png

更不用提数学问题了,比如经典的鸡兔同笼问题。

755846671e14dbf983872c471caca3fe.png

这可能是因为在中文等其他语言的适配性上没有进行优化,希望未来可以改进。

© THE END 

转载请联系本公众号获得授权

0730cf4bff8a70633e7a3ab364f03d95.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

VX:2311123606

51427ebbed75fa080ae17575d67f9189.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/42808.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

续集来了!我让 GPT-4 用 Laf 三分钟写了个完整的待办事项 App

书接前文,上篇文章我们教大家如何三分钟时间用 Laf 实现一个自己的 ChatGPT。 一觉醒来,GPT-4 已经发布了! GPT-4 实现了真正的多模态,可以把纸笔画的原型直接写出网页代码。读论文时还能理解插图含意。 好消息是,Chat…

七夕情人节该送女朋友什么礼物,推荐五款让女朋友超惊喜的礼物

七夕情人节又快到了,在这有爱的日子里,相信又有一大群男同胞不知该送女朋友什么礼物,又担心送到女朋友不喜欢的,但又不想敷衍了事,没关系,那就跟着我一起来看看这五款适合送给女朋友的礼物。 一、西圣F1气…

七夕礼物送女生什么好?颜值在线又有心意的礼物推荐

七夕是我国的传统节日,就在8月4号,有女朋友的赶紧准备起来了,表达爱意的时刻就要到了。现在提前准备礼物才能“有备无患”。那么该准备哪些礼物呢?送什么礼物才会给到女朋友惊喜呢?小编为大家精选几款不错的礼物。 一…

情人节礼物推荐排行榜、这6款好物值得你考虑

一年一度的情人节又即将到来,相信有不少人在苦恼该送什么样的礼物给自己的另一半,一份好的礼物可以在节日给彼此留下一个美好的回忆,也可以让感情更加温,如果实在不知道送什么,在这里精选了比较实用的适合情人节的礼物…

七夕送什么礼物好?小众又高级的产品礼物推荐

看看日历,是不是七夕情人节就快到了,是时候把口袋里的零花钱拿出来,给家里的“小朋友”买礼物啦~所有的节日都不是为了红包和礼物而生,而是提醒我们不要忘记爱与被爱,七夕礼物推荐帮你准备好了,一起来感受下…

七夕有哪些送女朋友的小众又高级的礼物?小众又高级的礼物推荐

一年的七夕又要来了,普通的生活不免寡淡,因为有爱人的存在,我们便会给节日们覆上彩色滤镜,在充满爱的的节日去表达爱,表达爱的方式也有很多种,其中送礼物也是一种非常能提升爱的幸福感的方式,如…

重磅:ChatGPT全栈开发发布了!颤抖吧...

《面向ChatGPT全栈开发实战》专栏上线了,写这个专栏的过程中,我真有点恐慌,感觉我得失业,因为ChatGPT实在太牛逼了。 ChatGPT如何和编程完美整合到一起?这个问题老赵研究很久了,这不,我利用假期…

Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her

FAY 数 字 人 Fay 控 制 器(这是元宇宙吗?) Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、…

虚拟数字人制作应用场景持续拓宽,3D数字人满足了用户全新需求

12月12日晚,由快手StreamLake助力蒙牛打造的3D写实虚拟人“奶思”,通过“蒙牛牛奶旗舰店”快手账号带来直播首秀。本场直播吸引近300万人观看,相较于该账号过去30天内的均值表现,互动量提升明显,直播间点赞数和评论数分…

虚拟形象动作捕捉+虚拟数字人制作技术,推动虚拟偶像代言人热潮

前不久,速途网速途元宇宙研究院《2022虚拟人产业研究报告》显示,虚拟偶像仍然是当下主流,一方面得益于较为成熟的技术能力,即虚拟数字人采用的建模与动作捕捉技术;另一方面得益于虚拟偶像鲜明的外观及人设,…

虚拟数字人几近真人?“造假”过程大公开

近来虚拟人呈现井喷式发展,银行、媒体、美妆等不同行业纷纷推出自己的虚拟人,一时之间AYAYI、Ling、柳夜熙等各式各样风格鲜明的虚拟人类走进了大众视野。那么到底什么是虚拟数字人?根据中国人工智能产业发展联盟发布的《2020年虚拟数字人发展…

虚拟数字人有哪些应用场景和用途?

近几年,元宇宙概念下的重要资产“虚拟数字人”崛起,作为未来人类进入元宇宙的媒介,虚拟数字人随着理论与技术的革新,应用范围正在不断扩大。那么虚拟数字人都有哪些应用场景和用途呢? 一、教育 虚拟数字人可以辅助老师…

怎么利用AI虚拟数字人创业,都有哪些AI数字虚拟人项目可操作。

随着数字化的快速发展,数字人成为了越来越受欢迎的创业领域。数字人是指由人工智能技术和人工智能算法构建而成的虚拟人物,可以模拟人类的语言、思维和情感等能力。数字人的出现给我们带来了创新的商业模式和巨大的商业机会。那么,如何利用数…

想知道同声翻译在线翻译怎么操作吗?很简单,只需4步

你知道同声翻译在线翻译怎么操作吗?随着全球化的不断发展,越来越多的人需要与来自不同国家的人交流。为了实现跨语言的沟通,同声翻译技术越来越受到欢迎。 下面将介绍4款支持同声翻译在线翻译功能的软件,希望可以帮助到大家。 方法…

如何进行同声翻译?这些同声翻译在线翻译方法大家都在用

在座的各位以后有没有出国求学或者旅游的计划呀,像我英语不太好,话到嘴边常常不知道怎么表达,在国内路上遇到热情的外国人也只会一句“How are you”外加肢体语言连比带画的,但是坚定想要出国的小伙伴们也不要担心自己语言不通&am…

手机同声传译软件有哪些?推荐四款软件实时翻译软件

小伙伴们有时候会在街上或者旅游景点遇到外国人吗?他们有可能向我们问路、问好玩的地方、问美食推荐等等,但如果我们因为外语水平不好,而导致语言不通,很难跟他们进行交流,这个时候应该怎么办呢?其实可以借…

同声传译在线软件有什么?推荐这些实时翻译软件给你

当在街上遇到问路的外国友人或者想要去国外游玩的时候,我们就可以借助同声传译软件将说的话进行实时翻译,流利的解答外国友人问的问题以及不用担心去国外会语音不通了。 那么小伙伴们知道同声传译在线软件有什么吗?不知道的话,可…

【经验分享】PC端免费高效的同声翻译

2022.09.26 谷歌翻译退出中国市场 translate.googleapis.com 与 谷歌翻译web translate.google.cn现在无法用了 最新解决方法见 https://blog.csdn.net/sinat_24092079/article/details/127133879 疫情期间上网课,对于英语听力较差或者需要观看英文视频&#xff0c…

这3个好用的同声传译app,让你知道有什么同声传译软件推荐

随着社会生活质量的提升,跨文化交流越来越频繁,现在市面上有许多功能丰富、操作简单、翻译准确的同声传译软件,只要使用其中的“同声传译”,就可以实现跨语种和外国人进行沟通了。那么有什么同声传译app推荐呢?今天我就…

图像风格快速迁移tensorflow实战

引言 需要解决的问题是:利用tensorflow的快速风格迁移功能,把一张qq的logo图片转换成《星空》油画的风格,并打印输出。 如图所示,最右边图像是输入结果,左边两图是输入: 一、操作步骤 通过两天的学习&am…