AI大战高考作文:瞎编、凑字数、万能套路

将深AI设为“星标

第一时间收到文章更新

7f023bf7c93f94074330dc4ab15ab9a3.jpeg

深AI(DeepAI2023)原创

作者 | 黎明

编辑 | 魏佳

这届高考,应该是过去五年来,最特殊的一次。因为多了一个新角色——AI考生。

第一天的语文考试刚结束,全网就掀起AI作文大赛。ChatGPT、文心一言、通义千问等AI大模型,被人们拿来写高考作文。几秒钟就能生成一篇,不仅速度惊人、逻辑严密,还能引经据典。

乍一看,AI大模型写作文,简直太轻松,似乎对人类构成降维打击。毕竟,论知识储备量,没有人可以跟AI比。AI把整个互联网上的资料都学习消化了,然后模仿人类的表达方式,用自己的逻辑输出。

但是,如果我们仔细分析AI考生的“答卷”,会发现AI并没有很多人想象的那样无所不能。AI大模型普遍存在的套路化写作、不会数数、胡说八道等问题,也在作文中出现。

事实上,按照高考作文的评分标准,AI生成的作文都存在某些方面的局限。战胜人类,目前还不现实。

深AI用高考作文测试了三款AI大模型——ChatGPT(OpenAI)、文心一言(百度)、通义千问(阿里),发现了一些有趣的结论。

比如,AI不会数数,文心一言、通义千问的作文都没有达到“不少于800字”的硬性要求;一本正经胡说八道的毛病还没改,为了凑字数可以车轱辘话来回说;AI写作文基本离不开套路,一个模板反复套用。

以下是详细内容,欢迎讨论。

41156169d82a8a2d236ba6fb0024973f.png

一个没有感情的答题机器

今年高考全国甲卷的作文主题是“人·技术·时间”,要求以“人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人”这句话展开,写自己的联想与思考。

我们先看一下教育部教育考试院发布的《试题解析》:考察逻辑思维和思辨能力。

2e4b60fb98d567c0b87ca973e9b1ba31.png

划重点:引导考生深入思考信息时代理性分析和审慎判断的重要性。这是考察的一大内核。

深AI测试了三个大模型发现,它们都没有抓住这个内核——东拉西扯说一通,啥都说了但其实啥也没说。

先看ChatGPT的作文:

c6cc8013a199bf26b9308476b9854cfe.png

再看文心一言的:

595947ede82805a7b811db03f500be27.png

最后看通义千问的:

f33a4328e27af3ae47fc444cbdb7a13e.png

这三篇作文,堪称顶级“端水大师”,围绕主题正反来回说,就是没有把“批判性思维”这个点说透。只有文心一言明确提到了“深入思考和批判性思维的培养”。

通义千问的作文是最空洞的。它把重点放在了“时间管理”上,偏离了主题,而且论述的道理也是人人皆知的常识。另外,通义千问的作文没有标题,扣分。

我们再用新课标I卷的作文试题“故事的力量”,看看三家的表现。

这篇作文要求根据以下这段话,写自己的联想和思考:好的故事,可以帮我们更好地表达和沟通,可以触动心灵、启迪智慧;好的故事,可以改变一个人的命运,可以展现一个民族的形象……故事是有力量的。

ChatGPT的作文:

04c926db5267dd9deb9aa89340b895ff.png

文心一言的:

c444470934aa97b8e4e929688e1eb6ed.png

通义千问的:

7d719a03c1d942e8a27067a67b620b0b.png

不得不说,除了通义千问的作文相对平淡,其他两篇的表述方式、行文逻辑,尤其是用词还是可圈可点的。尤其是文心一言用场景化的开场方式,让人眼前一亮。

不过问题也是显而易见的——同一个事情用不同的话术翻来覆去说,导致全文读下来,给人一种“你说的我都知道”的感觉。

一个没有感情的答题机器,这是很多人的评价。

“内容空洞,车轱辘变着来回说。”有人评价。还有人说:“全是没营养没内涵的大白话。”

我们不妨拆解一下文心一言的这篇作文,就会知道什么是“车轱辘话”。

dd634b60c062b8221dc4a6fdc1d72880.jpeg

文中标黄、标绿的部分,都是完全相同的意思,甚至可以说是相同的话术,在文中反复出现。在文末“总结来说”标蓝的一整段,则是把文中的观点和话术,搞了个大杂烩。

这给人一种凑字数的即视感。

深AI更改提示词,让ChatGPT想象自己是一个在高考现场的考生,并再次写一篇作文,它上来第一句话就是“当我坐在这个考试的座位上时,我的手中拿着一只先进的电子笔......”

2d7c943f8aa12e0efc1f94d7b55fb492.png

这样参加考试,估计会被判违规,直接零分。

没有灵魂,是AI作文最大的减分项。

7b61b37e5abe12153a07b9993f9836fb.png

套路,全是套路

为了让作文看起来像那么回事,AI用了很多套路。

它们很喜欢用“首先、其次、然后、最后”的句式。最典型的是ChatGPT,最后一段一定会是“总的来说……”

比如ChatGPT的这两篇作文:

107c41b742ab3b6b316d2ecd9e43ac90.jpeg

文心一言、通义千问也有相似的套路。前面一顿输出猛如虎,最后一定用“总而言之”“总的来说”结尾。

这就跟弹吉他一样,只要掌握了万能和弦公式(比如万能的卡农进行),就能弹出上百首曲子。

甚至于,我们让文心一言给自己写的作文打分,它也是“首先、其次、此外、综上……”一顿长篇大论。

6cfec6fd89b98734646efbdf5098c57d.png

而在“人·技术·时间”的作文题中,ChatGPT和通义千问居然用了几乎完全相同的表述:用“那么”提出一个问题,用“首先、其次、最后”展开具体论述。框架和逻辑像是一个模子里刻出来的。

e28e8c46866adf79681d63dc761ef674.png

3f79ee7eb265e223e791e15e43820e2b.png

尽管如此,文心一言非常自信地给自己的高考作文打出了90分的高分(假设满分100分),还自我评价“值得肯定”。我们把它的作文丢给ChatGPT,ChatGPT竟然毫不吝啬地给出了100分的满分……

AI大模型就像工业流水线,批量生产作文。但本质上,无论它说出来的话多么像人话,驱动的技术都是数学和统计,而非意识。

在人工智能行业,让AI听懂人话、会说人话,一直以来都是一件很困难的事情。人类的自然语言是一个极其复杂的系统,科学家让机器模拟了人类大脑的神经网络,使其具备深度学习能力,但始终不具备跟人一样的自然语言能力。

于是有人另辟蹊径,把语言问题转化成数学问题,然后通过计算,间接解决自然语言处理的问题。按照自然语言处理专家吴军的说法:语言模型不是逻辑框架,不是生物学的反馈系统,而是由数学公式构建的模型。这其中的关键词是“数学”。

这决定了人工智能没有自我意识或情绪,无法根据个人感觉来说话。写作文对它们来说,是以结果和任务为导向的一种逻辑表达。

而通过抓取全网海量数据进行训练,不断学习模仿人类的语言表达方式,AI大模型现在说话已经非常接近人类,虽然它还不懂文字背后的意思,但不影响交流。

在根本上,AI没有自己的思想。这也是为什么它的作文看起来头头是道,仔细一品,你会发现没有灵魂,全是套路的根本原因。

9047e28c285cd6f0aa968823446c0e11.png

AI真的不会数数

前面我们提到,语言模型的参数都是靠统计得出的。它的原理是给定一个文本的历史,预测下一个词的概率,然后补全下文。

2017年谷歌首次提出基于自我注意力机制(self-attention)的变换器(Transformer)模型,现在类似ChatGPT之类的语言大模型,都是建立在Transformer架构上。

Transformer的注意力机制比之前的RNN(循环神经网络)、GRU和LSTM等深度学习算法具有极长的记忆力。它还可以记住输入的顺序,所以能读懂“我爱你”和“你爱我”是不一样的意思。

但即便如此,它依然有局限。

比如,深AI让通义千问给它自己的作文打个分,它混淆了“你”和“我”的概念。开头说是它自己的文章,然后又说是“你”的文章……

c6e5c5dbeb533feaca7c85bbad262966.png

《大模型时代》作者龙志勇对深AI解释,这可能是因为站在左右互搏的角度,换位了。

在测试AI大模型写高考作文的过程中,我们还发现一个有意思的现象——AI不会数数。

高考作文有一个要求是字数不少于800字。深AI跟大模型进行了多次互动,除了ChatGPT,文心一言和通义千问第一版交上来的作文都没有达到800字。

比如文心一言,深AI多次提醒,文章字数不够800,需要重写。文心一言每次都是:首先态度非常谦卑地道歉,保证一定符合要求,然后快速用十几秒钟的时间生成一篇新的作文——还是不到800字。

这个“考生”读不懂作文题,且屡教不改,是个大大的减分项。

龙志勇对深AI解释:“大模型预测下一个词的训练方式,没有让它学会数数,它并不知道800是多少,更不懂得数着字数来生成文章。”

事实上,别说800,连10这样的数字,文心一言也数不清。

11ea9594719aa3544dcddd5d35051fdc.png

这是语言模型普遍存在的问题。至于为什么数不清,什么时候、通过什么办法就能数清,目前还没有结论。“虽然有一些提示工程的技巧可以帮助它数数,但并不是通用的解法。大模型现阶段就是靠做黑箱实验来验证它的能力,靠做黑箱训练来提升它的能力。”龙志勇说。

在龙志勇的建议下,深AI更改提示词,输入“内容再丰富,再长一些”,文心一言输出的作文超过了800字。

在前面的高考作文题中,ChatGPT的作文超过了800字,但其实,它也没学会数数。

ChatGPT这样对深AI解释:

1d929700656e79206e56d45cfb3c3072.png

所以,其实“优等生”ChatGPT的作文字数达标,是靠蒙的。它也不知道800字是多少,就尽可能多写点。

还不能完全听懂人话,但又具备超强的知识储备和表达能力,就导致有时候会出现让人哭笑不得的场面。

从这次AI大战高考作文的结果来看,大模型的写作能力已经有很大进步。在选词用词、逻辑论述、引经据典方面,甚至超过很多人。

不过,对作文质量的评价,本身带有主观因素,不像数学题一样只有唯一正确答案。好看的词句千篇一律,有趣的灵魂万里挑一。如何给作文注入灵魂,AI大模型还没玩明白。AI大模型固有的一些问题,也还需要通过技术迭代慢慢解决。

本文完,欢迎点个“关注”,这是一个很有AI的号。

*题图由Midjourney生成。

faf1141e2cf53ec3833bda8d850568f9.png

c478671c5fc34c02b0427cbeca763a1b.png

85e765d8afcd11c5ee2968f947e015a4.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/38418.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

#算法笔记01

一 &#xff1a;把数个相同的数字组合成一个整数&#xff0c;如6个6转换成666666这个整数。 #include<iostream> using namespace std; int main() {int DA 6;int counta 3;int PA 0;int tempa DA;for (int i 0; i < counta; i) {for (int j 0; j < i; j) {t…

如何俘获一个 IT 男的心,让他成为男友然后变成老公

1、IT男十男七闷骚。内心已热情如火&#xff0c;表面还爱答不理。请无视他的冷淡&#xff0c;忽略他的沉默&#xff0c;撕下他的假面&#xff01; 2、IT男十男七得瑟&#xff0c;自负于对互联网新产品的灵敏嗅觉&#xff0c;满口用户体验&#xff0c;请配合他的小小虚荣&…

4招教你们怎么做海报,想要宣传推广就来这

今天分享4招海报二维码的网站软件给你们&#xff0c;自己动手就能制作专属的海报广告哦&#xff01; 1.二维彩虹 这个网站可以制作动态或静态二维码&#xff0c;我们可通过输入网址、电子名片、文件、音视频等方式生成二维码。同样&#xff0c;在制作二维码之前&#xff0c;我…

SpringCloud Gateway Netty Websocket实现高性能聊天系统集群方案

目录 一、问题引出 二、架构图 三、实现方式 一、问题引出 在IM分布式系统的构建中遇到的问题&#xff1a; Netty服务器通过客户端的连接信息来生成对应的Channel&#xff08;可以理解为长连接的用户信息&#xff09;&#xff0c;Netty服务器通过Channel来进行消息转发。于…

oracle 锁表是为什么,怎么解决

1、锁表发生在insert update 、delete 中 2、锁表的原理是 数据库使用独占式封锁机制&#xff0c;当执行上面的语句时&#xff0c;对表进行锁住&#xff0c;直到发生commite 或者 回滚 或者退出数据库用户 3、锁表的原因 第一、 A程序执行了对 tableA 的 insert &#xff…

oracle 查询事务锁,Oracle中事务锁(锁住的表、锁住的会话)

今天又学会一招&#xff0c;查看Oracle数据库中由于会话非正常退出而导致的事务锁&#xff1a; 1.查看锁住的表 SELECT b.owner,b.object_name,a.sessi 今天又学会一招&#xff0c;查看Oracle数据库中由于会话非正常退出而导致的事务锁&#xff1a; 1.查看锁住的表 SELECT b.ow…

PG 锁类型、级别、死锁解决

文章目录 锁类型ACCESS SHAREROW SHAREROW EXCLUSIVESHARE UPDATE EXCLUSIVESHARESHARE ROW EXCLUSIVEEXCLUSIVEACCESS EXCLUSIVE 死锁查询死锁处理死锁测试Session ASession BSession CSession DSession E原因 结论 锁类型 ACCESS SHARE 1、SELECT产生的锁 2、与ACCESS EXCLU…

Oracle死锁问题: enq: TX - row lock contention

前言 这篇文章也是记录近期遇到的问题以及从中学到的知识 &#xff0c;近期一直在救火&#xff0c;有些问题自认为还是挺有代表性的&#xff0c;有兴趣的话再继续向下看 问题现象 线上反馈&#xff0c;执行批量处理EXCEL数据时&#xff0c;系统一直卡在进度滚动条界面。处理任务…

Oracle 出现锁表了,如何处理

出现锁表的情况很多种&#xff0c;但是大部分情况都是更新表&#xff0c;然后并没有提交&#xff0c;导致数据库的表被锁的情况。处理方式也比较简单&#xff0c;如下&#xff1a; 查询是否有表锁&#xff1a; select count(1) count from v$locked_object; 如果查询出来的数量…

短文重复性检测综述,谷歌文本重复性检测: Detect duplicate content like Google

文本重复性检测一直是NLP等领域非常重要的一项研究工作&#xff0c;今天 #paperClub# 给大家翻译一下"Detect duplicate content like Google"。 重复的内容是影响网站排名的最重要的负面因素之一。这就是为什么近重复检测 (NDD) 在任何 SEO 应执行的任务之间占据重要…

词云图:统计一个文本中词出现的次数。

在进行词云图的创作时&#xff0c;统计词语的出现频率是非常有意义的&#xff0c;可以依据词语频率的高低来判断词云图是否准确。选择小说中的某一章节&#xff0c;利用程序统计词语出现的次数。 程序如下&#xff1a; # -*- codeing utf-8 -*- # Time : 2021/12/12 1:21 # A…

chatgpt赋能python:Python词语分类

Python词语分类 Python是一种高级编程语言&#xff0c;它有很多词语&#xff0c;其中一些可能令你在学习Python时感到困惑。在这篇文章中&#xff0c;我们将探讨Python词语的分类&#xff0c;以帮助您更好地理解Python编程。 变量与数据类型 在Python中&#xff0c;变量用于…

DaVinci:Camera Raw(ARRI)

本文主要介绍 ARRI 的 Raw 格式素材相关的 Camera Raw 参数。 解码质量 Decode Quality 解码质量决定了图像解拜耳之后所呈现的素质&#xff0c;也与最终的输出息息相关。 默认为“使用项目设置” Use project setting&#xff0c;表示使用项目设置对话框中的“Camera RAW”解码…

DaVinci_Resolve_Studio_18.1.1达芬奇图文安装教程及下载

DaVinci Resolve最大的特点是&#xff0c;将剪辑、调色、视觉特效、动态图形和音频后期制作融于一身&#xff0c;它采用美观新颖的界面设计&#xff0c;易学易用&#xff0c;能让新手用户快速上手操作&#xff0c;还能提供专业人士需要的强大性能。 DaVinci Resolve 18是一次重…

davinci使用笔记(1)

第一节主要介绍达芬奇17的各个界面以及第一次使用的注意事项和主要设置。 这是达芬奇打开出现的界面&#xff0c;如图这是一个项目工程界面&#xff0c;我们可以在这里新建新的项目和和对项目进行分类&#xff0c;在这个界面右下角有三个按钮&#xff0c;其中第二个按钮是新建文…

达芬奇调色DaVinci Resolve Studio18v18.1.4 2023中文版更新发布,支持intel/M1/M2芯片

达芬奇是世界上唯一在单一软件环境中进行剪辑、调色、视觉效果、图形和音频后期处理的解决方案。其现代、时尚的界面简单直观&#xff0c;对于新手和有经验的用户来说都足够了。 DaVinci Resolve 无需掌握多个应用程序或在不同系统之间切换&#xff0c;极大地简化了您的创作过…

TI DaVinci(达芬奇)入门

&#xff08;转载来自 德州仪器半导体技术&#xff08;上海&#xff09;有限公司 通用DSP 技术应用工程师 崔晶 德州仪器&#xff08;TI&#xff09;的第一颗达芬奇&#xff08;DaVinci&#xff09;芯片&#xff08;处理器&#xff09;DM6446已经问世快三年了。继DM644x之后&am…

davinci 达芬奇BI工具

Davinci 是一个 DVAAS&#xff08;Data Visualization as a Service&#xff09;平台解决方案&#xff0c;面向业务人员/数据工程师/数据分析师/数据科学家&#xff0c;致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用&#xff0c;也可作为可视化插件集…

ChatGPT3.0 text-davinci-003 表现诡异

最近想试用一下通过API调用ChatGPT&#xff0c;在测试 gpt-3.5-turbo 的时候遇到了“openai.error.InvalidRequestError: This is not a chat model and thus not supported in the v1/chat/completions endpoint. Did you mean to use v1/completions? ”的问题。 所以该尝试…

中国元宇宙科技有限公司+《星云虚境》+AI虚拟数字人+chatgpt

随着人工智能、虚拟现实等技术的不断发展&#xff0c;中国元宇宙科技有限公司计划推出一款名为《星云虚境》的虚拟数字人平台。该平台将采用AIchatgpt等技术&#xff0c;为用户提供更加真实、智能的虚拟人体交互体验&#xff0c;为未来的数字化生活带来新的可能性。 未来&…