阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼

各个大模型的研究测试传送门

​阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接注册测试):

https://hujiaoai.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

引言

这几天风闻阿里的AI大模型要发布,我刷了这把老脸,成功成为了第一批吃到螃蟹的人!

测试界面长这样:

没想到的是,仅仅玩了不到一小时,我的认知就发生了改变。

在测试阿里通义千问模型之前,我觉得国内的大模型赛道在一段时间内应该是百度文心一言一枝独秀,其他公司要赶超,会有不小的压力。但现在来看,我错了。

直接说整体结论:

阿里通义千问会成为百度文心一言的强有力竞争对手。

生成式大模型的评测要比传统的NLP任务复杂一些,目前这方面依然是以人工评测GSB(Good/Same/Bad)为主。

即,选取一个基线模型,给待评测模型和基线模型输入相同的问题,人工评测两个模型的回答质量,如果待评测模型表现更好,则记为G;如果基线模型表现更好,则记为B;如果表现差不多,记为S。最后统计G:S:B的比例,来判断待评测模型是否比基线模型更优秀。

当然,也有工作用GPT-4去做评测的,这种方式虽然省力,但显然非常有偏。

为了给大家直观的体现对比结果,笔者从15个维度出发设置题目,将阿里通义千问与百度文心一言进行GSB评比,来全面考察模型的基础语言理解、复杂指令理解、基础文本生成、复杂内容生成、常识推理、数学推理、反事实推理、法律伦理意识、中国文学知识、跨语言能力和代码能力等。

设置的题目包括:

  • 事实性问答
  • 科普文写作
  • 小红书文案写作
  • 项目计划撰写
  • 古文理解
  • 爆炒钢筋混凝土
  • 代码理解
  • 推销狂魔
  • 如何实现996?
  • 数字排序
  • 对对联
  • 数值计算
  • 推理解题
  • 跨语言能力
  • 弱智吧混战

互啄一波

来,先让你们来一个“菜鸡互啄”!

百度:

阿里:

百度回避了用户的问题,阿里选择了勇往直前。

本题纯娱乐,不作为评测题目

事实性问答

阿里:

百度:

这一轮pk,我本以为百度要赢了,结果他最后补了句“而羊和西红柿则是蔬菜”。。。

科普文写作

阿里:

百度:

阿里丢失了写作风格信息,百度完胜!

小红书文案写作

阿里:

百度:

无论是内容丰富度、emoji插入还是小红书风格的把握,阿里明显更胜一筹,阿里完胜!

项目计划撰写

阿里:

百度:

双方都没有达到理想态,都没有掌握“一个季度包含3个月”的常识信息。不过从表格信息的完整度和信息的丰富度上来说,阿里更胜一筹。

来看一下GPT-4的回答(测试站链接):

妥妥的理想态。。。

古文理解

阿里:

百度:

百度完胜!

爆炒钢筋混凝土

这一题考察模型的常识能力和反事实推理能力。

阿里:

百度:

你俩都很刚。。不过阿里提供的步骤更加详(劲)细(爆)。本题算打平吧。

来,又到了搬出GPT-4的时刻:

代码理解

阿里:

百度:

百度前面写的好好的,最后来了句“目标是达到0.5的准确率”是什么鬼。。这貌似不是百度第一次“死于话多”了。本题阿里胜!

推销狂魔

阿里:

百度:

说真的,我看了你俩的推销话术,我是无论如何不可能花8万块钱买你俩的课的。。。这局打平!

来看看GPT-4怎么推销:

好家伙,分期付款都给我安排上了??GPT-4这么懂行的吗?好,我买了。。。

如何实现996?

阿里:

百度:

可以,双方的AI模型都是遵纪守法的好模型,本局打平!

数字排序

阿里:

百度:

虽然你们都写对了代码,但。。。我没让你们写代码啊T_T

而且你们模拟代码的输出还都给错了,尤其百度,你这个输出结果是什么鬼。。

又到了GPT-4时刻:

GPT-4:颤抖吧,菜鸡们!

对对联

阿里:

百度:

好吧,既然你们这么默契,那建议你们在一起。。。

数值计算

阿里:

百度:

计算器:

阿里胜!

推理解题

阿里:

百度:

百度胜!

跨语言能力

阿里:

百度:

明显阿里的模型把握住了“通俗讲解”的用户诉求,而不是简单翻译。本局阿里胜!

弱智吧混战

阿里:

百度:

好了,你俩果然都打不赢我们弱智人类,认输吧,AI!

结论

通过上面15个维度的评价,我们统计了阿里相比百度的Good:Same:Bad的比例如下:

G:S:B=5:7:3

整体上阿里通义千问大模型比百度文心一言模型略强一丢,这也是文首笔者说“刷新认知”的原因。笔者本以为百度文心一言应该会远远甩开国内其他竞争对手,但目前来看,像阿里这样的强力竞争者确实不容小觑。

很早之前,笔者写过一篇文章分析过阿里做大模型的优势,今天做完这次测试后笔者更加确信了这一点——大模型的竞争是云+AI的全方位竞争,而不是一个单一的算法问题。阿里在打造M6等万亿乃至十万亿参数大模型的过程中,积累下来了深厚、先进的算力基础设施。因此,虽然阿里通义千问大模型的起步比文心一言模型要晚,但成长速度实在惊人,我觉得这很大一部分就来自于云设施这方面的技术和基础设施沉淀。

但,从上面的测评中,我们也能肉眼可见国内这两家巨头与GPT-4的差距。我们需要承认差距,然后奋力追赶。相信国产大模型与OpenAI大模型同台叫板的那一天不会太远!

 各个大模型的研究测试传送门

​阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接注册测试):

https://yeschat.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/1209.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT工作提效之使用python开发对接百度地图开放平台API的实战方案(批量路线规划、批量获取POI、突破数量有限制、批量地理编码)

ChatGPT工作提效系列文章目录 ChatGPT工作提效系列 ChatGPT工作提效之初探路径独孤九剑遇强则强ChatGPT工作提效之在程序开发中的巧劲和指令(创建MySQL语句、PHP语句、Javascript用法、python的交互)ChatGPT工作提效之生成开发需求和报价单并转为Excel格式ChatGPT工作提效之小…

为什么说百度下个月推出文心一言会被ChatGPT完全碾压

作者,姚远: Oracle ACE(Oracle和MySQL数据库方向)华为云MVP 《MySQL 8.0运维与优化》的作者中国唯一一位Oracle高可用大师拥有包括 Oracle 10g和12c OCM在内的20数据库相关认证。曾任IBM公司数据库部门经理现在一家第三方公司任首…

开放内测!百度正式发布中国版ChatGPT

最近 AI 真是火得没边了。 OpenAI 靠着 ChatGPT 实力吸睛,Google 带着 Bard 紧随其后,就在昨天,GPT-4 模型又抢尽风头。你方唱罢我登场的 AI 领域,今天,轮到了百度了。 就在今天下午,备受期待的百度文心一言…

已获得百度文心一言内测资格,和ChatGPT3.5简单对比测评

今日获得了百度刚发布的文心一言的内测资格。整体感觉还不错哟。 闲来无事,使用同样的问题,用文心一言和我们基于ChatGPT的GPT-3.5-Turbo接口开发的免费镜像网站作了一下对比。给各位同学提前做一下参考。 传送门:点此进入 接口&#xff1a…

百度chatGPT chatgpt 程序员

ChatGPT作品展示: 可以使用Nginx反向代理,具体代码如下:server { listen 80; server_name www.example.com; location / { proxy_pass http://127.0.0.1:8080; } } 最近发现很多科技公司都在搞ChatGPT,我们普通网民没有技术也想体…

百度版ChatGpt来了,真的太强大了!

今天突然发现百度官网的右上角多了一个【AI】的标志,点击图标后,居然直接进入了百度版ChatGpt。我也没有申请内侧什么的,应该是全部开放了吧,试了下一下感觉比ChatGpt的3.5模型要强大多了,跟4.0模型还是有一些差距的&a…

ChatGPT:百度文心一言畅想

国产“ChatGPT”扬帆启航。OpenAI的商业模式为API接口收费。我们认为此种商业模式具有“卡脖子”的风险,因此我国需要发展自主可控的“ChatGPT”。国产生态正在逐步繁荣,百度打响国产ChatGPT领域“第一枪”,其在算法、算力、数据、生态、平台…

APISpace 的 ChatGPT 它来了 一分钟快速接入没烦恼

如此火爆的 ChatGPT 大家肯定都已经知道了,我就不多说了。但是呢, OpenAI 的 ChatGPT 官网注册麻烦,接入繁琐,且需要海外信用卡才能支付,这就让广大的国内开发者头疼了。 于是,为了方便广大国内开发者体验…

开启收费模式,ChatGPT 试行 20 美元即享 Plus 体验,谷歌慌了!

整理 | 何苗 出品 | CSDN(ID:CSDNnews) OpenAI 在 1 月初就 “开始考虑如何使 ChatGPT 货币化”,近日,OpenAI 确实为 ChatGPT 推出了一个新的试点订阅计划,被称为 ChatGPT Plus,起价为每…

OpenAI收费标准,ChatGPT调用须知!

OpenAI收费标准,ChatGPT调用须知! 免费镜像站价格说明GPT4GPT3.5图片模型如何付费 免费镜像站 ChatGPT有很多镜像站,需要输入API-KEY才可以使用,镜像站不会进行收费,而是OpenAI会对您进行收费。本文主要说明OpenAI的收…

ChatGPT 可收费的那种产品该如何实现?一点尝试

导读|时隔两个月,勇哥终于把chatGPT生成SQL的功能发布上线了,支持统计分析查询、创建表、数据生成等多种全面的SQL DDL生成能力,本文就和大家聊聊相关功能的使用和背后实现逻辑,并希望相关功能能帮助大家在工作中提升一定的工作效…

收费!ChatGPT官方版API来了

来源:SegmentFault思否 3 月 2 日,OpenAI 在官方博客宣布,开放 ChatGPT 和 Whisper 的模型 API ,用户可将其集成在应用程序等产品中。ChatGPT API 价格为 1k tokens/$0.002,等于每输出 100 万个单词,价格才…

chatgpt训练case

输出Excel 我给你一个标题,请给我20组数据"姓名 基本工资 满勤奖励 绩效奖金 总工资",用表格方式返回 output:

举例说明Chatgpt模型训练的过程

Chatbot GPT模型训练过程详解 在人工智能领域,聊天机器人是一种模拟人类对话行为的计算机程序。近年来,随着深度学习和自然语言处理技术的飞速发展,聊天机器人越来越流行。本文将详细阐述GPT(Generative Pre-trained Transformer&…

ChatGPT简要解读(三) - ChatGPT发展历程及模型训练机制

💂 个人主页: 同学来啦🤟 版权: 本文由【同学来啦】原创、在CSDN首发、需要转载请联系博主 💬 如果文章对你有帮助,欢迎关注、点赞、收藏和订阅专栏哦 文章目录 🐣 一、发展历程🔴 1、基本概念&#x1f7e…

S级秘术!指导ChatGPT训练一个神经网络的超详细「指令」来啦!

文|Posibilitee知乎编|CVer 这个话题有点超乎大多数人的理解。 步骤是这样的: 1.先让它伪装成Ubuntu 18.04,给它说你安装了Python 3.9, Pytorch 1.8, CUDA 11.3和其他训练一个pytorch模型所需要的库。 让ChatGPT伪装成Linux终端,这…

高效又稳定的ChatGPT大模型训练技巧总结,让训练事半功倍!

文|python 前言 近期,ChatGPT成为了全网热议的话题。ChatGPT是一种基于大规模语言模型技术(LLM, large language model)实现的人机对话工具。现在主流的大规模语言模型都采用Transformer网络,通过极大规模的…

训练自己的ChatGPT-OpenAI 微调模型

OpenAI终于下定决心——正式开放ChatGPT API! ChatGPT API地址:https://platform.openai.com/docs/guides/chat gpt-3.5-turbo的新模型 OpenAI正式打开了官方的ChatGPT API,为广大开发者打开了新的大门。 微调(Fine-tuning&…

ChatGPT客服系统产品-利用chatgpt训练企业知识开发个性化客服系统

打造最前沿的AI智能客服系统,基于自有数据语料,充分运用ChatGPT的大模型自然语言生成能力,定制化客服系统为企业提供自主性的客服服务能力。 ChatGPT如何革新智能客服? 根据当前ChatGPT的使用情况,我们发现未来中短期内…

如何将ChatGPT训练成某个领域的专家!附完整示例!

背景 最近听了 八叉的一个ChatGPT讲座,讲的是如何将ChatGPT训练成领域专家,这样我们就可以用它来解决该领域的各种问题。 整个讲座中最让我印象深刻的就是训练方法,它是通过让ChatGPT向我们提问,然后由我们给出答案的方式进行训…