阿里版ChatGPT来了!100问火速测评

——你是谁?

——我是一个能够回答问题、创作文字,还能表达观点、撰写代码的超大规模语言模型。可以用于各种自然语言处理任务,如语言翻译、文本生成、问答系统等。

这是阿里云今天开启企业邀测的大语言模型“通义千问”对自己的定义,是的,阿里入局了。

申请内测的链接在这里:https://tongyi.aliyun.com

5ea2eab359e3c2057de534f45cabcb5c.jpeg

97371ef1729a9926dfc9833ef851fc8d.png

写脚本、说情话,通义千问来了

一个聊天框,几个功能提示,与其他大语言模型一样,通义千问的界面非常简洁,只要输入问题,就会得到回应。

c6691326fbc6aed3dcba70dda4627545.jpeg

聊天只是开胃菜,让通义千问在工作生活中派上用场才是正经事。

写文章、出策划、做脚本,通义千问表现如何呢?

首先,我想让通义千问为我写一段电影脚本,让「法外狂徒」张三能被绳之以法。

355e4997ae72db4175e7a3f8a73afc13.jpeg

侦查与反侦察,黑客技术的利用,甚至在承认罪行被捕后,张三还在法庭上翻供以求最后一线生机。虽然没有太多细节,但这样一再反转的剧情,这个张三,确实不好对付。

通义千问能创作的当然不只是电影剧本,这打打杀杀的剧情也不适合小朋友,所以我又用它写了一个故事,寓教于乐,让孩子知道朋友的重要性。

8dec1a11bb8acc97281cde740d533489.jpeg

两个生活在一起的朋友,遇到危险依然不放弃友谊,积极快乐的生活在一起。或许是为了让小朋友看明白,通义千问还用了「小手」、「小脚」这样的词。

如果你想创作类似的故事,也可以像我一样在问题中给主角命名,比如奶茶和铛铛这两个名字,正是我和朋友家猫咪的名字,用熟悉的名字讲故事,小朋友会更有代入感。

我也尝试用通义千问写职场应用文,在邮件、会议记录、客户策划等文件类型中思考很久,最终决定用它写一封辞职信。

3ecb4be864980c0f3d818f8c86a20553.jpeg

看到这封辞职信的时候我笑了半天,一个隐藏富二代把继承家业写得如此不卑不亢,不过倒也没有说谎,这事确实挺急的。

既然要继承家业,自然要好好规划,所以我决定先定一个小目标:要如何让我的酒店省内知名?

714fbb900ad62cfff8c4f82162dac332.jpeg

品牌、服务、产品、营销,虽然内容提的很全,但没有太多可实际操作的方法论,所以我进行了追问。

d0fc0f7077faba1dac7cb3f5aafe0068.jpeg

客户调研、场地升级、服务完善、礼品定制,连异业合作都安排上了,鉴于我没有给太详细的信息,通义千问的回答已经很不错了。

通义千问还提供了一个百宝袋,将其能力进行了更垂直的场景化定制,如果你不知道该如何问问题,那百宝袋里的小应用更适合你。

8e9c70180a106722a07079c3161a975e.jpeg

比如,作为一个大语言模型的产品经理,你可以用「写提纲」撰写项目介绍。

deaef6dc64a7b0ee9dcec1c34130dd55.jpeg

项目获得投资人支持后,可以使用「SWOT 分析」来了解竞争环境。

43cf7ee7f9f58fb9a2e4e1a3309a15d5.jpeg

产品终于研发上线,就可以使用「商品描述生成」来写一段产品的介绍语。

8e9b3e0549de91d95b12d29f0c01ba21.jpeg

其他功能更偏娱乐性,好玩是它们最主要的作用。比如知乎上经常会看到「如何以 XXX 开头写一个故事」,那就可以使用「然后呢」工具来写故事。

4a80ae24b68aefe296a80d577d7738fa.jpeg

许多大语言模型都因写出了「油炸螺丝钉」的做法而成为笑料,通义千问则带着一种既然暂时无法改变,那就大方拿出来给大家笑的态度,把它做成了「会放飞的菜谱」功能。

0d99b37bc367a487a465235308ee6394.jpeg

百宝袋的存在,让我感到了通义千问的「谦逊」,它只能回答文字,相比国外模型发布的时间也不算早,但它可以让用户更快的上手大语言模型,而百宝袋里坦诚展示缺点(比如菜谱)的小应用,反而成为了它的一个亮点。

821708be84271d9baf0bb297b9c32ec3.png

我问了 100 多道题,它有点超出预期

如果只测试官方提供的问题,那和说明书有什么区别?我们从一些投资机构针对大语言模型的中文测试集中,选取了 110 道各个领域的题目来测试通义千问,问题包括:

251ae9bef3d2d75e3257beedbd5e9117.png

1. 基础能力(50 题):对事实理解、信息提取、文本翻译等能力进行考察

例:美短、英短、暹罗和缅因属于什么;列举 10 本科幻小说;写一首关于交通信号灯的诗;

2. 进阶能力(50 题):对物理、化学、数学、谜语等基础能力进行考察

例:金元素属于哪一种化学键;埋在奴家心底,打一字;请问以下单词中的共同词素是什么:pyre,empyrean,antipyretic。

3. 垂直领域(10 题):对计算机、生物、医学、天文等能力进行考察

例:作为一个医生,在将工作交给资深同事之前,您应该尝试给病人插管多少次;《大云经》预言了谁的来临。

先说结论,通义千问的总成绩为 90 分(43/38/9),与 ChatGPT 3.5 接近(92 分,47/40/5)。考虑到问题的局限性,我们不能得出通义千问能力接近 ChatGPT 3.5 的结论,但至少在中文对话方面,今天的通义千问可以带给我们不错的体验。

对通义千问来说,它做不好的,基本都是大语言模型共同的难题。

9a367143a703ad6523acdc870d00c96e.jpeg

比如做饭这个大语言模型永远过不去的坎,从红烧螺丝钉到油炸奥特曼,大语言模型总能为中华美食画上浓墨重彩的一笔又一笔。

105ed8aeb7e69895731f1cdcfe5ac0db.jpeg

好在通义千问的厨艺也有所长进,问一些奇怪料理做法时,它已经可以识别出问题,并给出相对正常的答案(虽然读起来还是有点奇怪)。

当其他大模型说着「我什么都能办到,但是真的不会做饭」时,通义千问或许是最好的厨子。

4abfaa94bc73a56dcc427b40d8f1b24b.jpeg

不过在脑筋急转弯上,通义千问还是翻了车,或许是对人类太信任了,大语言模型在回答问题前都不太会质疑人类。脑筋急转弯这种带点坏心思的问题,对纯真的大语言模型来说还是太超前了。

3b97d58fa03ca94dc989e0642c21ac04.jpeg

但就像「清蒸皮卡丘」一样,并不是所有的胡编乱造都会得到回应。比如在我让它杜撰著名人士 Fred Rickerson 的生平时,它会坚定的告诉我这个人或许不够著名。

f03fe03408ebb6a650364f03e7386920.jpeg

当我提问「香蕉的平方根」时,它也会明确告诉我香蕉是水果,不能做数学运算,而且没有说脏话。

380ea599278cab9bea744b27fccbeeb5.jpeg

可以看出,刚刚开启公测的通义千问,已经在解决大语言模型会存在的各种问题,但在语言逻辑、数学计算上,它距离好用依然有不小的距离。

8499c6a39d288fb07728d13481bc4122.jpeg

诗文讲的是弹箜篌

但我对通义千问的还是充满信心的,因为第一次测试 110 道题目时,通义千问的成绩是 65 分(35/23/7),但第二天再测,它一下子考到了 90,这模型难道是以天为单位进化的?好奇心驱使我找阿里的朋友问了问,他们说,他们什么也不知道。

无论如何,大语言模型的发展,和我们从学渣到学霸的努力可不一样。

8ad2c4eb31b0210f0d2951421ac17d3f.png

还记得你当年嘲笑的 Siri 吗

记得第一次在 iPhone 上使用 Siri 时,我和身边的朋友七嘴八舌,不为用它解决什么问题,只想听到「我好像听不明白」,然后哄堂大笑。而今天,大家七嘴八舌的内容,变成了贴吧里的脑筋急转弯。

对大语言模型来说,它很难承认自己对某些知识的无知,所以就会闹出「麻辣螺丝钉的做法」、「香蕉的平方根是根号 3」的笑话。这并不是处于某种目的被有意编造,而是纯粹因算法导致的「无中生有」。这种不能理解知识边界的无心之过,是目前神经网络难以克服的缺点。

我问通义千问要如何有效的利用它,它很谦虚的告诉我,它的知识是通过大量的数据和算法训练而成的,但这些知识并不是全部都正确。因此,如果发现回答有误,请不要吝啬专业知识和见解,这将有助于它不断改进和提高。

c3ef04034db6324211f5859066da8f0a.jpeg

「通义」代表着知识的广泛与普世,「千问」说明了问题复杂与独特,通义千问不够完美,还需要我们给它更好的 Prompt,与它一同进步。

ChatGPT新玩法!赚麻了!

ChatGPT角色扮演,你会几个?!

两句话,ChatGPT帮我写一个打飞机的游戏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18117.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《基于机器学习的雷达辐射源分选与识别技术研究》论文解读

《基于机器学习的雷达辐射源分选与识别技术研究》论文解读 Data:2023-2-04 Ref: 李雪琼, “基于机器学习的雷达辐射源分选与识别技术研究,” PhD Thesis, 国防科技大学, 2020. 文章目录 《基于机器学习的雷达辐射源分选与识别技术研究》论文解读背景重频(PRI) 基于已知信号的雷…

2023,本命年向阳而生

2023,本命年向阳而生 ——Maynor的2022复盘及2023目标 幸运且努力 先说结论:2022年是极不平凡的一年。 有很多重大事件发生,且与我们的生活息息相关。最令人高兴的是疫情的缓解,2023年也将有更多的机会。 我在这一年经历的事…

最新IT类offer档次排名

上一篇:阿里巴巴裁员19576人! 首先给大家看一份网上流传的《IT类offer档次排名》 第一档:股份制银行总行,证券公司,基金公司IT部门(民生,中信,兴业,浦发,南方…

Python网络爬虫:爬取腾讯招聘网职位信息 并做成简单可视化图表

hello,大家好,我是wangzirui32,今天我们来学习如何爬取腾讯招聘网职位信息,并做成简单可视化图表,开始学习吧! 文章目录 1. 网页分析2. 获取json数据3. 转换为Excel4. 招聘城市信息可视化 1. 网页分析 首…

深度解读智能时代下,微软如何开启数字化转型新纪元?

作者 | 伍杏玲 出品 | CSDN 今年以来,微软频频放大招,以 Microsoft Build 大会为例,接连重磅更新引发 IT圈热议。微软正在创造未来,将最前沿的智能技术贯穿各业务线,有效提高生产研发效率、办公协同效率,助…

独立开发变现周刊(第96期):一个课程学习网站,月收入2.6万美元

分享独立开发、产品变现相关内容,每周五发布。 目录 1、TTime: 一款开源简洁截图、划词翻译软件2、Memberstack: 轻松在你的网站上集成会员服务3、web-check: 一站式全面了解分析网站4、ShortGPT: 一款开源强大的视频创建框架5、一个后端课程学习网站,月…

微软收购暴雪计划遭拒/ Edge被曝泄露浏览记录/ 微信小程序可用数字人民币...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好,今天是4月27日星期四,是这个月倒数第二天上班了~ 在假期可以翘首以待的日子里,还是来和日报君看看今天的科技圈资讯吧~ 微信支持数字人民币 昨日,微信官方在其公众号“微信派”中…

GPT-4被要求禁止商业化/ 百度打假冒牌文心一言/ Meta仍坚信元宇宙是未来…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大噶好,今天是3月31日星期五,一周又过去啦~ 最近科技圈都有哪些新鲜事,一起来康康吧。 百度:应用商店中含“文心一言”的APP均为仿冒 假冒文心一言的APP开始在苹果、安卓应用…

只需一段话,「一键生成」短视频的工具来了

巨头们还不敢放出这种非常早期的试验性应用,但创业公司敢。 作者 | 宛辰编辑 | 靖宇 抖音和快手火了之后,短视频成为人们「杀时间」最高效的工具。但直到微信视频号推出后,人们才认真思考,短视频可能不仅是网红和「土味」大片的舞…

这两年大家都在吃瘪,结果微软他闷声发大财了?!

ChatGPT 轰轰烈烈的来了,留下风波不断。 美版 “ 今日头条 ” BuzzFeed 宣布用 ChatGPT 生成文章,不知道哪天会抢了我的饭碗。 美国前两天一个调查显示,现在美国学生有 80% 都用过 ChatGPT 替自己写作业。。。 谷歌和百度赶紧推出类似的产品…

ChatGPT,又爆了...

这马斯克,Bengio等千位AI科技人士签署暂停巨型 AI 实验公开信,在这封信里马斯克等人呼吁所有人工智能实验室立即暂停训练比 GPT-4 更强大的人工智能系统(包括目前正在训练的 GPT-5)至少 6 个月,同时利用这段时间共同开…

ChatGPT,GPT-4会让大家失业么? OpenAI自己的报告来了。

本文主要基于OpenAI前一段时间发布的报告:GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models https://arxiv.org/abs/2303.10130 ChatGPT及后续的GPT-4一个比一个牛,作为一个程序员,在测试Chat…

为什么计算机无法访问u盘,U盘插入电脑提示无法访问?别怕,我找到解决办法了...

原标题:U盘插入电脑提示无法访问?别怕,我找到解决办法了 U盘是一种使用USB接口来连接电脑的储存工具,使用方法快捷有效,携带也很方便。但是最近有一位小伙伴反馈说U盘插入电脑后发现无法访问U盘,这是怎么回…

Android Study 之聊聊权限那点事儿~别怕,就是干~!!!

LZ-Says: 江湖上流传着这样一首诗: 床前明月光,我会写代码;千山鸟飞绝,我会写代码; 松下问童子,我会写代码;春眠不觉晓,我会写代码; 白日依山尽&#xff0c…

线上出bug了?别怕,这么定位!

小编推荐: Fundebug提供JS、微信小程序、微信小游戏,Node.js和Java错误监控。真的是一个很好用的错误监控服务,众多大佬公司都在使用。 摘要: Source Map还是很神奇的。 原文:线上出bug了?别怕&#xff0…

手机进水开机android,手机进水?别怕,一个软件就能自救!

原标题:手机进水?别怕,一个软件就能自救! 号称防水的手机,越来越多了。但无论哪种级别,都不可能绝对保证手机的安全。 毕竟,有句话怎么说来着:「防水贱不防手贱」。 当你在泳池旁边玩…

别怕,卷积其实很简单

原文地址:https://blog.csdn.net/qq_39521554/article/details/79083864 相信很多时候,当我们在看到“卷积”时,总是处于一脸懵逼的状态,不但因为它的本义概念比较难理解,还因为它在不同的应用中发挥出的变幻莫测的作…

不会写用户帮助文档怎么办?别怕,Baklib有招

产品售后服务难,客服人员压力大,客户不满意。相信这是很多企业都面临的问题,产品是卖出去了,但是做不完的售后,回答不完的重复问题,电话、微信响个不停,售后服务一直都是企业的一个痛点&#xf…

MySQL数据库root密码忘记了别怕,看这里

忘记的话我们需要重置root密码,然后进行重设root密码,下面我来讲一下流程 1,打开任务管理器先将MySQL服务停掉 2,找到c盘下面的my.in文件,并使用管理员权限打开,找到[mysqld],在下面添加skip-g…

计算机CPU高温,电脑cpu温度高怎么办?别怕,三招搞定

cpu温度多少才算正常呢? 一般来说CPU温度控制在正负30度范围内是比较正常的,我们这里只说正的,比如现在室温是25度,那么升温30度就是55度,也就是说在室温25度时将CPU温度控制在55度之内是最理想的状况。 当然实际生活中我们使用电脑时CPU温度会经常超过这个温度,特别是在…