阿里版ChatGPT突然官宣!100问火速测评

——你是谁?

——我是一个能够回答问题、创作文字,还能表达观点、撰写代码的超大规模语言模型。可以用于各种自然语言处理任务,如语言翻译、文本生成、问答系统等。

这是阿里云今天开启企业邀测的大语言模型“通义千问”对自己的定义,是的,阿里入局了。

申请内测的链接在这里:https://tongyi.aliyun.com

b0d754003b5f33a2b446310e1683f629.jpeg

a0c6a23080ff7629df1ffad7ed6498b7.png

写脚本、说情话,通义千问来了

一个聊天框,几个功能提示,与其他大语言模型一样,通义千问的界面非常简洁,只要输入问题,就会得到回应。

e4c0a00f0bd09bc728e4b25a97916f12.jpeg

聊天只是开胃菜,让通义千问在工作生活中派上用场才是正经事。

写文章、出策划、做脚本,通义千问表现如何呢?

首先,我想让通义千问为我写一段电影脚本,让「法外狂徒」张三能被绳之以法。

7a6cbd7d07e38c9992e592cc9474c6ee.jpeg

侦查与反侦察,黑客技术的利用,甚至在承认罪行被捕后,张三还在法庭上翻供以求最后一线生机。虽然没有太多细节,但这样一再反转的剧情,这个张三,确实不好对付。

通义千问能创作的当然不只是电影剧本,这打打杀杀的剧情也不适合小朋友,所以我又用它写了一个故事,寓教于乐,让孩子知道朋友的重要性。

c51f9b5c1db3c1682fdfd7dd7fc40298.jpeg

两个生活在一起的朋友,遇到危险依然不放弃友谊,积极快乐的生活在一起。或许是为了让小朋友看明白,通义千问还用了「小手」、「小脚」这样的词。

如果你想创作类似的故事,也可以像我一样在问题中给主角命名,比如奶茶和铛铛这两个名字,正是我和朋友家猫咪的名字,用熟悉的名字讲故事,小朋友会更有代入感。

我也尝试用通义千问写职场应用文,在邮件、会议记录、客户策划等文件类型中思考很久,最终决定用它写一封辞职信。

20de9817c5e3a2e7ef9b3fce1e74df68.jpeg

看到这封辞职信的时候我笑了半天,一个隐藏富二代把继承家业写得如此不卑不亢,不过倒也没有说谎,这事确实挺急的。

既然要继承家业,自然要好好规划,所以我决定先定一个小目标:要如何让我的酒店省内知名?

f8c9eb462c31c62c180217df7f9f31bf.jpeg

品牌、服务、产品、营销,虽然内容提的很全,但没有太多可实际操作的方法论,所以我进行了追问。

51faea5ad90e04b43d0ce67e73e352f4.jpeg

客户调研、场地升级、服务完善、礼品定制,连异业合作都安排上了,鉴于我没有给太详细的信息,通义千问的回答已经很不错了。

通义千问还提供了一个百宝袋,将其能力进行了更垂直的场景化定制,如果你不知道该如何问问题,那百宝袋里的小应用更适合你。

9ff5e2a8c02fa112a61a8146b4017edc.jpeg

比如,作为一个大语言模型的产品经理,你可以用「写提纲」撰写项目介绍。

5a4c2eb89c41aa4c3555343bf50bb3fd.jpeg

项目获得投资人支持后,可以使用「SWOT 分析」来了解竞争环境。

8c3e6790647cfbacef1e81353e7a1898.jpeg

产品终于研发上线,就可以使用「商品描述生成」来写一段产品的介绍语。

71e4302925e7e7bf93879e40d74e0592.jpeg

其他功能更偏娱乐性,好玩是它们最主要的作用。比如知乎上经常会看到「如何以 XXX 开头写一个故事」,那就可以使用「然后呢」工具来写故事。

c4a55399d005c54a6faf858829bceeca.jpeg

许多大语言模型都因写出了「油炸螺丝钉」的做法而成为笑料,通义千问则带着一种既然暂时无法改变,那就大方拿出来给大家笑的态度,把它做成了「会放飞的菜谱」功能。

dc536a5d97a0e0ab195074472b2925e9.jpeg

百宝袋的存在,让我感到了通义千问的「谦逊」,它只能回答文字,相比国外模型发布的时间也不算早,但它可以让用户更快的上手大语言模型,而百宝袋里坦诚展示缺点(比如菜谱)的小应用,反而成为了它的一个亮点。

5a00955e2971861fc4f9aea9667bb990.png

我问了 100 多道题,它有点超出预期

如果只测试官方提供的问题,那和说明书有什么区别?我们从一些投资机构针对大语言模型的中文测试集中,选取了 110 道各个领域的题目来测试通义千问,问题包括:

222257e97f54331e02f85f1452a9a7f4.png

1. 基础能力(50 题):对事实理解、信息提取、文本翻译等能力进行考察

例:美短、英短、暹罗和缅因属于什么;列举 10 本科幻小说;写一首关于交通信号灯的诗;

2. 进阶能力(50 题):对物理、化学、数学、谜语等基础能力进行考察

例:金元素属于哪一种化学键;埋在奴家心底,打一字;请问以下单词中的共同词素是什么:pyre,empyrean,antipyretic。

3. 垂直领域(10 题):对计算机、生物、医学、天文等能力进行考察

例:作为一个医生,在将工作交给资深同事之前,您应该尝试给病人插管多少次;《大云经》预言了谁的来临。

先说结论,通义千问的总成绩为 90 分(43/38/9),与 ChatGPT 3.5 接近(92 分,47/40/5)。考虑到问题的局限性,我们不能得出通义千问能力接近 ChatGPT 3.5 的结论,但至少在中文对话方面,今天的通义千问可以带给我们不错的体验。

对通义千问来说,它做不好的,基本都是大语言模型共同的难题。

955e5483a4199d62ee778e4eb7a0f472.jpeg

比如做饭这个大语言模型永远过不去的坎,从红烧螺丝钉到油炸奥特曼,大语言模型总能为中华美食画上浓墨重彩的一笔又一笔。

ef33b5ff633bdcf6cf0839f706d473ab.jpeg

好在通义千问的厨艺也有所长进,问一些奇怪料理做法时,它已经可以识别出问题,并给出相对正常的答案(虽然读起来还是有点奇怪)。

当其他大模型说着「我什么都能办到,但是真的不会做饭」时,通义千问或许是最好的厨子。

13a96ad6c9add73b1158da4bf0f96959.jpeg

不过在脑筋急转弯上,通义千问还是翻了车,或许是对人类太信任了,大语言模型在回答问题前都不太会质疑人类。脑筋急转弯这种带点坏心思的问题,对纯真的大语言模型来说还是太超前了。

2fe9c11b99438925158dbf7614bb513b.jpeg

但就像「清蒸皮卡丘」一样,并不是所有的胡编乱造都会得到回应。比如在我让它杜撰著名人士 Fred Rickerson 的生平时,它会坚定的告诉我这个人或许不够著名。

974712515ee1962669b7286cfffa57da.jpeg

当我提问「香蕉的平方根」时,它也会明确告诉我香蕉是水果,不能做数学运算,而且没有说脏话。

576bdf1ddc1e7e5f0c8389a7490472a5.jpeg

可以看出,刚刚开启公测的通义千问,已经在解决大语言模型会存在的各种问题,但在语言逻辑、数学计算上,它距离好用依然有不小的距离。

c5f5cdd14aa146d8df90a32f40bf0faa.jpeg

诗文讲的是弹箜篌

但我对通义千问的还是充满信心的,因为第一次测试 110 道题目时,通义千问的成绩是 65 分(35/23/7),但第二天再测,它一下子考到了 90,这模型难道是以天为单位进化的?好奇心驱使我找阿里的朋友问了问,他们说,他们什么也不知道。

无论如何,大语言模型的发展,和我们从学渣到学霸的努力可不一样。

889a333419cd6863ee8099388c53fed7.png

还记得你当年嘲笑的 Siri 吗

记得第一次在 iPhone 上使用 Siri 时,我和身边的朋友七嘴八舌,不为用它解决什么问题,只想听到「我好像听不明白」,然后哄堂大笑。而今天,大家七嘴八舌的内容,变成了贴吧里的脑筋急转弯。

对大语言模型来说,它很难承认自己对某些知识的无知,所以就会闹出「麻辣螺丝钉的做法」、「香蕉的平方根是根号 3」的笑话。这并不是处于某种目的被有意编造,而是纯粹因算法导致的「无中生有」。这种不能理解知识边界的无心之过,是目前神经网络难以克服的缺点。

我问通义千问要如何有效的利用它,它很谦虚的告诉我,它的知识是通过大量的数据和算法训练而成的,但这些知识并不是全部都正确。因此,如果发现回答有误,请不要吝啬专业知识和见解,这将有助于它不断改进和提高。

da2e68cf23afec1b3b378aaf3efbfd1e.jpeg

「通义」代表着知识的广泛与普世,「千问」说明了问题复杂与独特,通义千问不够完美,还需要我们给它更好的 Prompt,与它一同进步。

0f1dbb990df1fa321da9b22732cf8775.jpeg

  • 👉 Python练手必备

  • 👉 Python毕设实战项目

  • 👉 Python爬虫实战必备

  • 👉 30款Python小游戏附源码

  • 👉 Python清理微信单向好友神器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17711.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通义千问,阿里版ChatGPT,拿到邀请码了

大家好,我是章北海mlpy 通义千问是阿里巴巴推出的一个大型预训练模型,是达摩院自主研发的超大规模语言模型,能够回答问题、创作文字,还能表达观点、撰写代码。 昨天中午,阿里云通过官方微信公众号对旗下的超大规模语言…

阿里版 ChatGPT 官宣!我们用 16 个提问,火速进行了测评……

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 平地一声雷!今天中午阿里版类 ChatGPT 「通义千问」突然官宣: 没错,就这 3 行简短介绍 1 个官网地址,再无其他“剧透”。 好在,CSDN 有幸拿…

聚观早报 | 货拉拉入局跑腿业务;苹果任命首位首席人力资源官

今日要闻:谷歌AI聊天机器人Bard股价大跌7.4%;货拉拉入局跑腿业务;苹果任命首位首席人力资源官;迪士尼宣布裁员 7000 人;家乐福中国 COO 离职 谷歌AI聊天机器人Bard股价大跌 7.4% 2 月 8 日消息,谷歌人工智…

宝塔快速反代openai官方的API接口,实现国内调用open ai

前言 这是技术最简单,最容易实现的,之前介绍过的一个《利用腾讯云函数免费部署国内直接使用GPT代理,解决网络不可用及1020等问题》,实现起来比较复杂,步骤太多,容易出错漏掉的环节,从而导致失败…

2023年06月 GESP等级认证Python编程(一级)试题解析

【单选题】(每题2分) 1、以下不属于计算机输出设备的有( )。 A、麦克风 B、音箱 C、打印机 D、显示器 正确答案:A 试题解析:麦克风是属于计算机的输入设备。 2、ChatGPT 是 OpenAI 研发的聊天机器人…

死磕数据库系列(三十四):MySQL 性能测试工具 sysbench 详解

点关注公众号,回复“1024”获取2TB学习资源! 前面给大家介绍了:死磕数据库系列(三十三):MySQL 性能分析与相关工具的使用。今天我将详细的为大家介绍 MySQL 数据库的性能测试工具 sysbench 的相关知识 &…

Access denied You do not have access to chat.openai.com 【Error reference number: 1020】

使用自己的魔法无法访问chatgpt:Access denied You do not have access to chat.openai.com 【Error reference number: 1020】 1.原因2. 解决办法(2023 4.6 有效)下面是具体的操作步骤: 3. 可能出现的问题安装问题 4. 转载 1.原因…

chatgpt赋能python:Python转换成数字:从字符串到整数的完整指南

Python 转换成数字:从字符串到整数的完整指南 在Python编程中,经常需要将字符串转换成数字类型,例如整数,浮点数或复数。字符串是由字符组成的序列,而数字是用于数学计算的数据类型。因此,了解如何正确地将…

CSDN账号注销问题

在CSDN网站https://www.csdn.net/右下脚的QQ图标,点击联系客服弹出QQ对话框,直接问怎么注销账号。 客服需要你提供用户名、绑定邮箱、手机号、注册时间及地点来核验信息,通过后就会注销,其实也没注销账号,只是解绑了然…

当我们在谈论ChatGPT时,我们在谈论什么?

当我们在谈论ChatGPT时,我们在谈论什么? 文章目录 当我们在谈论ChatGPT时,我们在谈论什么?一、介绍GPT-4相比GPT-3.5有何不同呢1.交谈能力2.多语言翻译精确度3.视觉输入 二、应用领域1.小镇做题家 (学术研究)2.Cosplay&#xff0c…

【人工智能】xAI——“X宇宙”又增添了一位新成员

个人主页:【😊个人主页】 🌞热爱编程,热爱生活🌞 文章目录 前言xAI团队成员做解开宇宙本质的AI 前言 有人问他,xAI公司是干啥的?马斯克的回答引用了其偶像、科幻作家道格拉斯・亚当斯的话&…

html静态网站基于游戏网站设计与实现共计10个页面 (仿地下城与勇士游戏网页)

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

谷歌dns服务器未响应,“DNS服务器未响应”怎么办? - 爱绿豆

网络连接不上原因有很多,其中“DNS服务器未响应”这个问题让不少人受到困扰。当联网出现异常,诊断出结果显示“DNS服务器未响应”怎么办? 什么是DNS服务器? DNS服务器是进行域名(domain name)和与之相对应的IP地址 (IP address)转换的服务器。DNS中保存了一张域名(domain n…

安全运营场景下的机器学习算法应用

观测到一个有意思的现象: 假设把安全划分为 基础安全 和 业务安全,PR类的议题中,会出现分级:基础安全领域,喜欢讲纵深防御,给出一个炫酷的架构图,然后各种技术关键字往上标;业务安全…

人工智能时代,普通的我们如何提升自己的核心竞争力

今天这篇文章,麒麟子不聊技术,想聊聊大家都在关心的问题:人工智能时代,普通的我们如何提升自己的核心竞争力。 看着社区的开发者们都在讨论 ChatGPT,麒麟子也试用了一下,已经成功让它参与到了下面的工作&a…

Python+Yolov5跌倒检测 摔倒检测 人物目标行为 人体特征识别

PythonYolov5跌倒检测 摔倒检测 人物目标行为 人体特征识别 如需安装运行环境或远程调试&#xff0c;见文章底部个人QQ名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对<<PythonYolov5跌倒摔倒人体特征识别>>编写代码&#xff0c;代码整洁&a…

ArcGISPRO 和 ChatGPT集成思路

“我们如何一起使用 ArcGIS PRO 和 ChatGPT&#xff1f;”ArcGIS Pro 是一款功能强大的桌面 GIS 软件&#xff0c;用于制图、空间分析和数据管理。ChatGPT 是一种 AI 语言模型&#xff0c;可用于自然语言处理任务&#xff0c;例如文本生成和响应。 结合使用 ArcGIS Pro 和 Chat…

可真刑!两高中生用 AI 生成涩图,疯狂变现

&#x1f447;&#x1f447;关注后回复 “进群” &#xff0c;拉你进程序员交流群&#x1f447;&#x1f447; 转自&#xff1a;新智元 【导读】生成式AI火了以后&#xff0c;限制输出内容的就只剩人们的想象力了。这不&#xff0c;两个高中生用AI生成裸照&#xff0c;疯狂在道…

滥用GPT,被抓了.....

程序员的成长之路 互联网/程序员/技术/资料共享 关注 阅读本文大概需要 2.8 分钟。 来自&#xff1a;IT之家 IT之家 5 月 7 日消息&#xff0c;IT之家从甘肃公安官方获悉&#xff0c;近日&#xff0c;甘肃省平凉市公安局网安大队成功侦破了一起利用人工智能技术制造虚假新闻的…

基于GPT API开发的软硬件产品的合规风险分析

随着OpenAI提供的ChatGPT产品在国内爆火&#xff0c;目前国内很多企业都已开始研究基于ChatGPT引擎为用户提供AIGC内容。ChatGPT背后的运营公司OpenAI也非常贴心的提供了GPT-3.5、GPT-4等模型的API供开发者调用&#xff0c;笔者预计国内接下来会有很多基于GPT-3.5、GPT-4模型的…