国产ChatGPT「套壳」的秘密,现在被找到了

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

“套壳ChatGPT!”“套皮Stable Diffusion!”“实则抄袭!”……

外界对国产大模型产生质疑已经不是一次两次了。

业内人士对这个现象的解释是,高质量的中文数据集实在紧缺,训模型时只能让采买的外文标注数据集“当外援”。训练所用的数据集撞车,就会生成相似结果,进而引发乌龙事件。

35378115c6947c5ca84838ce413fb119.gif

其余办法中,用现有大模型辅助生成训练数据容易数据清洗不到位,重复利用token会导致过拟合,仅训练稀疏大模型也不是长久之计。

业内渐渐形成共识:

通往AGI的道路,对数据数量和数据质量都将持续提出极高的要求。

时势所需,近2个月来,国内不少团队先后开源了中文数据集,除通用数据集外,针对编程、医疗等垂域也有专门的开源中文数据集发布。

高质量数据集虽有但少

大模型的新突破十分依赖高质量、丰富的数据集。

根据OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸缩法则(scaling law)可以看到,独立增加训练数据量,是可以让预训练模型效果变更好的。

6ce9e023b97042c8a35256fedac95f81.png

这不是OpenAI的一家之言。

DeepMind也在Chinchilla模型论文中指出,之前的大模型多是训练不足的,还提出最优训练公式,已成为业界公认的标准。

7e99a16270a1e8f09dbc4dbbc958a1d9.png主流大模型,Chinchilla参数最少,但训练最充分

不过,用来训练的主流数据集以英文为主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文数据只占据4.8%。

中文数据集是什么情况?

公开数据集不是没有——这一点量子位从澜舟科技创始人兼CEO、当今NLP领域成就最高华人之一周明口中得到证实——如命名实体数据集MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整体数量和英文数据集相比可谓九牛一毛。

并且,其中部分已经老旧,可能都不知道最新的NLP研究概念(新概念相关研究只以英文形式出现在arXiv上)。

中文高质量数据集虽有但少,使用起来比较麻烦,这就是所有做大模型的团队不得不面对的惨烈现状。此前的清华大学电子系系友论坛上,清华计算机系教授唐杰分享过,千亿模型ChatGLM-130B训练前数据准备时,就曾面临过清洗中文数据后,可用量不到2TB的情况。

解决中文世界缺乏高质量数据集迫在眉睫。

行之有效的解决方法之一,是直接用英文数据集训大模型

在人类玩家打分的大模型匿名竞技场Chatbot Arena榜单中,GPT-3.5在非英文排行榜位居第二(第一是GPT-4)。要知道,96%的GPT-3.5训练数据都是英文,再刨去其他语种,用来训练的中文数据量少到可以用“千分之n”来计算。

0a4a51026d8dfbe8967d7b982735d2b9.png

国内top3高校某大模型相关团队在读博士透露,如果采用这种方法,不嫌麻烦的话,甚至可以给模型接一个翻译软件,把所有语言都转换成英语,然后把模型的输出转换为中文,再返回给用户。

394cc6c483206597b6cb2bdea66eddd6.png

然而这样喂养出的大模型始终是英文思维,当遇到成语改写、俗语理解、文章改写这类含有中文语言特色的内容,往往处理不佳,出现翻译错误或潜在文化的偏差。

还有个解决办法就是采集、清洗和标注中文语料,做新的中文高质量数据集,供给给大模型们。

开源数据集众人拾柴

察觉现况后,国内不少大模型团队决定走第二条路,着手利用私有数据库做数据集。

百度有内容生态数据,腾讯有公众号数据,知乎有问答数据,阿里有电商和物流数据。

积累的私有数据不一,就可能在特定场景和领域建立核心优势壁垒,将这些数据严格搜集、整理、筛选、清洗和标注,能保证训出模型的有效性和准确性。

而那些私有数据优势不那么明显大模型团队,开始全网爬数据(可以预见,爬虫数据量会非常大)。

273ce99a6a72afb77649aa81a71a7e18.png

华为为了打造盘古大模型,从互联网爬取了80TB文本,最后清洗为1TB的中文数据集;浪潮源1.0训练采用的中文数据集达5000GB(相比GPT3模型训练数据集为570GB);最近发布的天河天元大模型,也是天津超算中心搜集整理全域网页数据,同时纳入各种开源训练数据和专业领域数据集等的成果。

与此同时,近2个月来,中文数据集出现众人拾柴火焰高的现象——

许多团队陆续发布开源中文数据集,弥补当前中文开源数据集的不足或失衡。

其中部分整理如下:

  • CodeGPT:由GPT和GPT生成的与代码相关的对话数据集;背后机构为复旦大学。

  • CBook-150k:中文语料图书集合,包含15万本中文图书的下载和抽取方法,涵盖人文、教育、科技、军事、政治等众多领域;背后机构为复旦大学。

  • RefGPT:为了避免人工标注的昂贵成本,提出一种自动生成事实型对话的方法,并公开我们的部分数据,包含5万条中文多轮对话;背后是来自上海交大、香港理工大学等机构的NLP从业者。

  • COIG:全称“中国通用开放指令数据集”,是更大、更多样化的指令调优语料库,并由人工验证确保了它的质量;背后的联合机构包括北京人工智能研究院、谢菲尔德大学、密歇根大学、达特茅斯学院、浙江大学、北京航空航天大学、卡内基梅隆大学。

  • Awesome Chinese Legal Resources:中国法律数据资源,由上海交大收集和整理。

  • Huatuo:通过医学知识图谱和GPT3.5 API构建的中文医学指令数据集,在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果;项目开源方是哈工大。

  • Baize:使用少量“种子问题”,让 ChatGPT 自己跟自己聊天,并自动收集成高质量多轮对话数据集;加州大学圣迭戈分校(UCSD)与中山大学、MSRA合作团队把使用此法收集的数据集开源。

15c7750481214f9f154c3dacd4e0b334.jpeg

当更多的中文数据集被开源到聚光灯下,行业的态度是欢迎与欣喜。如智谱AI创始人兼CEO张鹏表达出的态度:

中文高质量数据只是被藏在深闺而已,现在大家都意识到这个问题了,自然也会有相应的解决方案,比如数据开源。
总之是在向好的方向发展,不是吗?

值得注意的是,除了预训练数据,目前阶段人类反馈数据同样不可或缺

现成的例子摆在眼前:

与GPT-3相比,ChatGPT叠加的重要buff就是利用RLHF(人类反馈强化学习),生成用于fine-tuing的高质量标记数据,使得大模型向与人类意图对齐的方向发展。

提供人类反馈最直接的办法,就是告诉AI助手“你的回答不对”,或者直接在AI助手生成的回复旁边点赞或踩一踩。

210796317d9eacf7e382537dcd21cb0c.png

先用起来就能先收集一波用户反馈,让雪球滚起来,这就是为什么大家都抢着发布大模型的原因之一。

现在,国内的类ChatGPT产品,从百度文心一言、复旦MOSS到智谱ChatGLM,都提供了进行反馈的选项。

但由于在大部分体验用户眼中,这些大模型产品最主要的还是“玩具”属性。

当遇到错误或不满意的回答,会选择直接关掉对话界面,并不利于背后大模型对人类反馈的搜集。

So~

今后遇到AI生成回答有错误或遗漏时,请不要吝惜一次点击,高举你手中的“649af3febce8f87ddb12ba4c4af77c08.png”或“bef869fa6ac88ab74ab81df3d488082d.png,让大模型能收集更多的人类反馈。

就像读到这里,不要吝惜对这篇推文点赞、转发、在看一样!(doge)

— 联系作者 —

b3fa009639ee968c8a9e93a4c8e86b0f.png

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

39fb1fd5c303bc72b9b07edb35e0a1a6.png

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2315.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

复旦“首发”国产版 ChatGPT!名为 MOSS 惹群嘲,回应称:还非常不成熟

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 身处科技圈的各位,最近应该都被 ChatGPT “刷屏”了吧。 不仅国外微软、谷歌、Meta 等科技巨头争相布局,国内百度、科大讯飞、华为、阿里巴巴、360、京东等大厂也集体“上车”…

ZeLinAI是什么?国产ChatGPT快速搭建自己的AI应用

ChatGPT使用门槛高,需要科学上网短信接码等,不如直接选择国产ZelinAI,使用超简单轻轻松松从0到1零代码创建自己的AI应用。目前模型仅支持GPT-3.5-turbo,后续应该会接入文心一言、GPT-4、GPT-4.5和Bard,新手站长分享国产…

果然,ChatGPT还是被拿去搞黄色了...

来源:网络 此前,推出的各类AI绘画工具。 想要制作出还能看得过去的作品,需要一定的美术功底和美感,上手门槛一点也不低。 大部分绅士顶多做个饱饱眼福的观众,完全没有参与感。 啪得一下很快啊,最近一个新的…

国产版 ChatGPT 来了,百度确认将推出文心一言,计划三月面世!

整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 快来了,快来了,带着众人的期望,国产版 ChatGPT 就快来啦! 近日,经百度内部确认,其正在研发一款 AI 对话式聊天机器人,…

一天现六个国产ChatGPT大模型,“百模大战”全面开打

(图片来源:Shutterstock) 国内人工智能(AI)大模型行业到底有多火?你看看下面消息就知道了。 仅4月18日一天,就有6个关于大模型的重要消息公布: 钉钉宣布正式接入阿里巴巴“通义千问…

国产 ChatGPT 争夺战打响!科大讯飞有信心百天内实现应用落地

近日,由人工智能实验室 OpenAI 发布的对话式大型语言模型 ChatGPT一路“狂飙”,在全球学术界和产业界卷起了新一轮 AI 龙卷风,成为了史上增速最快的消费级应用程序。 短短两个月,这个 AI 界乃至科技圈的“新晋顶流”月活便超过 1 …

国产 ChatGPT 赛道又添一员:「天工」大模型发布,我们准备了 20 问火速实测!...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 一个月前,百度「文心一言」的发布可谓赚足了眼球,国产 ChatGPT 之战也由此正式拉开序幕:阿里版类 ChatGPT「通义千问」突然官宣,商汤也发布了「商量」语…

通过百度文心一言大模型作画尝鲜,感受国产ChatGPT的“狂飙”

3月16日下午,百度于北京总部召开新闻发布会,主题围绕新一代大语言模型、生成式AI产品文心一言。百度创始人、董事长兼首席执行官李彦宏,百度首席技术官王海峰出席,并展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、…

现在就能用!公测版本的“国产ChatGPT”,实力几何?

ChatGPT 的热度依然在持续,大家热切期待着国内类 ChatGPT 产品的出现。 最近还真的出现了一个公测产品——对话写作猫,由秘塔科技自研的 LLM 大模型。 之前被各种山寨/转接/内测版本吊起来的胃口,这下终于有放开大吃一顿的机会了。 一直以来大…

国产ChatGPT之初体验

ChatGPT的大火,不仅让人惊讶现代人工智能的发展速度,更让人增加了人类会不会被人工智能取代的担忧。ChatGPT属于NLP自然语言处理人工智能,虽然仍然有很多不足,但在其能力范围内,在网络上整合资源的效率似乎要比普通人强…

国产chatgpt:基于chatGLM微调nlp分类任务

文章目录 一、源码网址1. 硬件设施:2. INT4 量化示例 二、重要的开源社区功能:网址:使用方法:利用方法:对 NLP 工作者的作用:对大模型工程师的用处: 三、重要的开源库四、提示词工程五、进行分类…

千万不要把ChatGPT引入浏览器回答问题

试用的时候有多爽,最后你删对话的时候就有多狼狈

ChatGPT重磅升级,可以联网、添加插件!最后的封印解除了!

这下没什么能阻止 ChatGPT 了? ChatGPT 是个「智商超高」的人工智能,经过 GPT-4 内核的升级版更是如此。然而我们知道,它的训练数据截止到 2021 年,没有训练过的东西,AI 是不可能准确回答出来的。 自去年 11 月上线以来…

如何用edge浏览器调用chatgpt的api接口?

目录 (1)首先在apifox或postman编写接口 url:https://api.openai.com/v1/completions 参数说明:prompt是问题的文本,max_tokens是最大token数,目前最大为4097(包括标题)&#xff…

假冒的ChatGPT浏览器扩展被发现劫持Facebook账户

谷歌已介入从官方网上商店中删除伪装成 OpenAI 的 ChatGPT 服务的虚假 Chrome 浏览器扩展程序,以获取 Facebook 会话 cookie 并劫持帐户。 “ChatGPT For Google”扩展程序是合法开源浏览器插件的木马化版本,自 2023 年 3 月 14 日被删除以来吸引了超过…

merlin—chatgpt浏览器插件

下载 视频一键总结 CtrlQ 打开智能问答

推荐一款国人开发的ChatGPT浏览器插件

一、糟糕的搜索引擎体验 在使用主流的搜索引擎(百度、谷歌、必应)搜索一个java问题的时候,经常搜索出来的答案很不理想。 有时候答案基本会有很多重复,不知道谁是原创,谁是抄袭的; 有时候回答地过于简单&…

效率神器!神级ChatGPT浏览器插件分享

大家好,我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师,带来最新的前沿AI知识和工具,欢迎大家交流~,后续我还会分享更多 AI 有趣工具和实用玩法,包括AI相关技术、ChatGPT、AI…

ChatGPT强到离谱,这么十一款ChatGPT浏览器插件你值得拥有

🔗 运行环境:ChatGPT 🚩 撰写作者:左手の明天 🥇 精选专栏:《python》 🔥 推荐专栏:《算法研究》 #### 防伪水印——左手の明天 #### 💗 大家好🤗&#x1f9…

推荐几个chatgpt相关的浏览器插件

插件一、WebChatGPT:可访问互联网的 ChatGPT 插件地址:https://chrome.google.com/webstore/detail/webchatgpt-chatgpt-with-i/lpfemeioodjbpieminkklglpmhlngfcn?utm_sourcechrome-ntp-icon 作用: 在chatgpt的官网页面使用时,可…