AI大战高考作文：瞎编、凑字数、万能套路

AI大战高考作文：瞎编、凑字数、万能套路

news/2025/1/3 1:41:37/文章来源:https://blog.csdn.net/McIl9G4065Q/article/details/131118285

将深AI设为“星标⭐”

第一时间收到文章更新

深AI（DeepAI2023）原创

作者 | 黎明

编辑 | 魏佳

这届高考，应该是过去五年来，最特殊的一次。因为多了一个新角色——AI考生。

第一天的语文考试刚结束，全网就掀起AI作文大赛。ChatGPT、文心一言、通义千问等AI大模型，被人们拿来写高考作文。几秒钟就能生成一篇，不仅速度惊人、逻辑严密，还能引经据典。

乍一看，AI大模型写作文，简直太轻松，似乎对人类构成降维打击。毕竟，论知识储备量，没有人可以跟AI比。AI把整个互联网上的资料都学习消化了，然后模仿人类的表达方式，用自己的逻辑输出。

但是，如果我们仔细分析AI考生的“答卷”，会发现AI并没有很多人想象的那样无所不能。AI大模型普遍存在的套路化写作、不会数数、胡说八道等问题，也在作文中出现。

事实上，按照高考作文的评分标准，AI生成的作文都存在某些方面的局限。战胜人类，目前还不现实。

深AI用高考作文测试了三款AI大模型——ChatGPT（OpenAI）、文心一言（百度）、通义千问（阿里），发现了一些有趣的结论。

比如，AI不会数数，文心一言、通义千问的作文都没有达到“不少于800字”的硬性要求；一本正经胡说八道的毛病还没改，为了凑字数可以车轱辘话来回说；AI写作文基本离不开套路，一个模板反复套用。

以下是详细内容，欢迎讨论。

一个没有感情的答题机器

今年高考全国甲卷的作文主题是“人·技术·时间”，要求以“人们因技术发展得以更好地掌控时间，但也有人因此成了时间的仆人”这句话展开，写自己的联想与思考。

我们先看一下教育部教育考试院发布的《试题解析》：考察逻辑思维和思辨能力。

划重点：引导考生深入思考信息时代理性分析和审慎判断的重要性。这是考察的一大内核。

深AI测试了三个大模型发现，它们都没有抓住这个内核——东拉西扯说一通，啥都说了但其实啥也没说。

先看ChatGPT的作文：

再看文心一言的：

最后看通义千问的：

这三篇作文，堪称顶级“端水大师”，围绕主题正反来回说，就是没有把“批判性思维”这个点说透。只有文心一言明确提到了“深入思考和批判性思维的培养”。

通义千问的作文是最空洞的。它把重点放在了“时间管理”上，偏离了主题，而且论述的道理也是人人皆知的常识。另外，通义千问的作文没有标题，扣分。

我们再用新课标I卷的作文试题“故事的力量”，看看三家的表现。

这篇作文要求根据以下这段话，写自己的联想和思考：好的故事，可以帮我们更好地表达和沟通，可以触动心灵、启迪智慧；好的故事，可以改变一个人的命运，可以展现一个民族的形象……故事是有力量的。

ChatGPT的作文：

文心一言的：

通义千问的：

不得不说，除了通义千问的作文相对平淡，其他两篇的表述方式、行文逻辑，尤其是用词还是可圈可点的。尤其是文心一言用场景化的开场方式，让人眼前一亮。

不过问题也是显而易见的——同一个事情用不同的话术翻来覆去说，导致全文读下来，给人一种“你说的我都知道”的感觉。

一个没有感情的答题机器，这是很多人的评价。

“内容空洞，车轱辘变着来回说。”有人评价。还有人说：“全是没营养没内涵的大白话。”

我们不妨拆解一下文心一言的这篇作文，就会知道什么是“车轱辘话”。

文中标黄、标绿的部分，都是完全相同的意思，甚至可以说是相同的话术，在文中反复出现。在文末“总结来说”标蓝的一整段，则是把文中的观点和话术，搞了个大杂烩。

这给人一种凑字数的即视感。

深AI更改提示词，让ChatGPT想象自己是一个在高考现场的考生，并再次写一篇作文，它上来第一句话就是“当我坐在这个考试的座位上时，我的手中拿着一只先进的电子笔......”

这样参加考试，估计会被判违规，直接零分。

没有灵魂，是AI作文最大的减分项。

套路，全是套路

为了让作文看起来像那么回事，AI用了很多套路。

它们很喜欢用“首先、其次、然后、最后”的句式。最典型的是ChatGPT，最后一段一定会是“总的来说……”

比如ChatGPT的这两篇作文：

文心一言、通义千问也有相似的套路。前面一顿输出猛如虎，最后一定用“总而言之”“总的来说”结尾。

这就跟弹吉他一样，只要掌握了万能和弦公式（比如万能的卡农进行），就能弹出上百首曲子。

甚至于，我们让文心一言给自己写的作文打分，它也是“首先、其次、此外、综上……”一顿长篇大论。

而在“人·技术·时间”的作文题中，ChatGPT和通义千问居然用了几乎完全相同的表述：用“那么”提出一个问题，用“首先、其次、最后”展开具体论述。框架和逻辑像是一个模子里刻出来的。

尽管如此，文心一言非常自信地给自己的高考作文打出了90分的高分（假设满分100分），还自我评价“值得肯定”。我们把它的作文丢给ChatGPT，ChatGPT竟然毫不吝啬地给出了100分的满分……

AI大模型就像工业流水线，批量生产作文。但本质上，无论它说出来的话多么像人话，驱动的技术都是数学和统计，而非意识。

在人工智能行业，让AI听懂人话、会说人话，一直以来都是一件很困难的事情。人类的自然语言是一个极其复杂的系统，科学家让机器模拟了人类大脑的神经网络，使其具备深度学习能力，但始终不具备跟人一样的自然语言能力。

于是有人另辟蹊径，把语言问题转化成数学问题，然后通过计算，间接解决自然语言处理的问题。按照自然语言处理专家吴军的说法：语言模型不是逻辑框架，不是生物学的反馈系统，而是由数学公式构建的模型。这其中的关键词是“数学”。

这决定了人工智能没有自我意识或情绪，无法根据个人感觉来说话。写作文对它们来说，是以结果和任务为导向的一种逻辑表达。

而通过抓取全网海量数据进行训练，不断学习模仿人类的语言表达方式，AI大模型现在说话已经非常接近人类，虽然它还不懂文字背后的意思，但不影响交流。

在根本上，AI没有自己的思想。这也是为什么它的作文看起来头头是道，仔细一品，你会发现没有灵魂，全是套路的根本原因。

AI真的不会数数

前面我们提到，语言模型的参数都是靠统计得出的。它的原理是给定一个文本的历史，预测下一个词的概率，然后补全下文。

2017年谷歌首次提出基于自我注意力机制（self-attention）的变换器（Transformer）模型，现在类似ChatGPT之类的语言大模型，都是建立在Transformer架构上。

Transformer的注意力机制比之前的RNN（循环神经网络）、GRU和LSTM等深度学习算法具有极长的记忆力。它还可以记住输入的顺序，所以能读懂“我爱你”和“你爱我”是不一样的意思。

但即便如此，它依然有局限。

比如，深AI让通义千问给它自己的作文打个分，它混淆了“你”和“我”的概念。开头说是它自己的文章，然后又说是“你”的文章……

《大模型时代》作者龙志勇对深AI解释，这可能是因为站在左右互搏的角度，换位了。

在测试AI大模型写高考作文的过程中，我们还发现一个有意思的现象——AI不会数数。

高考作文有一个要求是字数不少于800字。深AI跟大模型进行了多次互动，除了ChatGPT，文心一言和通义千问第一版交上来的作文都没有达到800字。

比如文心一言，深AI多次提醒，文章字数不够800，需要重写。文心一言每次都是：首先态度非常谦卑地道歉，保证一定符合要求，然后快速用十几秒钟的时间生成一篇新的作文——还是不到800字。

这个“考生”读不懂作文题，且屡教不改，是个大大的减分项。

龙志勇对深AI解释：“大模型预测下一个词的训练方式，没有让它学会数数，它并不知道800是多少，更不懂得数着字数来生成文章。”

事实上，别说800，连10这样的数字，文心一言也数不清。

这是语言模型普遍存在的问题。至于为什么数不清，什么时候、通过什么办法就能数清，目前还没有结论。“虽然有一些提示工程的技巧可以帮助它数数，但并不是通用的解法。大模型现阶段就是靠做黑箱实验来验证它的能力，靠做黑箱训练来提升它的能力。”龙志勇说。

在龙志勇的建议下，深AI更改提示词，输入“内容再丰富，再长一些”，文心一言输出的作文超过了800字。

在前面的高考作文题中，ChatGPT的作文超过了800字，但其实，它也没学会数数。

ChatGPT这样对深AI解释：

所以，其实“优等生”ChatGPT的作文字数达标，是靠蒙的。它也不知道800字是多少，就尽可能多写点。

还不能完全听懂人话，但又具备超强的知识储备和表达能力，就导致有时候会出现让人哭笑不得的场面。

从这次AI大战高考作文的结果来看，大模型的写作能力已经有很大进步。在选词用词、逻辑论述、引经据典方面，甚至超过很多人。

不过，对作文质量的评价，本身带有主观因素，不像数学题一样只有唯一正确答案。好看的词句千篇一律，有趣的灵魂万里挑一。如何给作文注入灵魂，AI大模型还没玩明白。AI大模型固有的一些问题，也还需要通过技术迭代慢慢解决。

本文完，欢迎点个“关注”，这是一个很有AI的号。

*题图由Midjourney生成。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/38418.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

#算法笔记01

#算法笔记01

一 ：把数个相同的数字组合成一个整数，如6个6转换成666666这个整数。 #include<iostream> using namespace std; int main() {int DA 6;int counta 3;int PA 0;int tempa DA;for (int i 0; i < counta; i) {for (int j 0; j < i; j) {t…

阅读更多...

如何俘获一个 IT 男的心，让他成为男友然后变成老公

如何俘获一个 IT 男的心，让他成为男友然后变成老公

1、IT男十男七闷骚。内心已热情如火，表面还爱答不理。请无视他的冷淡，忽略他的沉默，撕下他的假面！ 2、IT男十男七得瑟，自负于对互联网新产品的灵敏嗅觉，满口用户体验，请配合他的小小虚荣&…

阅读更多...

4招教你们怎么做海报，想要宣传推广就来这

4招教你们怎么做海报，想要宣传推广就来这

今天分享4招海报二维码的网站软件给你们，自己动手就能制作专属的海报广告哦！ 1.二维彩虹这个网站可以制作动态或静态二维码，我们可通过输入网址、电子名片、文件、音视频等方式生成二维码。同样，在制作二维码之前，我…

阅读更多...

SpringCloud Gateway Netty Websocket实现高性能聊天系统集群方案

SpringCloud Gateway Netty Websocket实现高性能聊天系统集群方案

目录一、问题引出二、架构图三、实现方式一、问题引出在IM分布式系统的构建中遇到的问题： Netty服务器通过客户端的连接信息来生成对应的Channel（可以理解为长连接的用户信息），Netty服务器通过Channel来进行消息转发。于…

阅读更多...

oracle 锁表是为什么，怎么解决

oracle 锁表是为什么，怎么解决

1、锁表发生在insert update 、delete 中 2、锁表的原理是数据库使用独占式封锁机制，当执行上面的语句时，对表进行锁住，直到发生commite 或者回滚或者退出数据库用户 3、锁表的原因第一、 A程序执行了对 tableA 的 insert &#xff…

阅读更多...

oracle 查询事务锁,Oracle中事务锁（锁住的表、锁住的会话）

今天又学会一招，查看Oracle数据库中由于会话非正常退出而导致的事务锁： 1.查看锁住的表 SELECT b.owner,b.object_name,a.sessi 今天又学会一招，查看Oracle数据库中由于会话非正常退出而导致的事务锁： 1.查看锁住的表 SELECT b.ow…

阅读更多...

PG 锁类型、级别、死锁解决

PG 锁类型、级别、死锁解决

文章目录锁类型ACCESS SHAREROW SHAREROW EXCLUSIVESHARE UPDATE EXCLUSIVESHARESHARE ROW EXCLUSIVEEXCLUSIVEACCESS EXCLUSIVE 死锁查询死锁处理死锁测试Session ASession BSession CSession DSession E原因结论锁类型 ACCESS SHARE 1、SELECT产生的锁 2、与ACCESS EXCLU…

阅读更多...

Oracle死锁问题： enq: TX - row lock contention

Oracle死锁问题： enq: TX - row lock contention

前言这篇文章也是记录近期遇到的问题以及从中学到的知识 ，近期一直在救火，有些问题自认为还是挺有代表性的，有兴趣的话再继续向下看问题现象线上反馈，执行批量处理EXCEL数据时，系统一直卡在进度滚动条界面。处理任务…

阅读更多...

Oracle 出现锁表了，如何处理

Oracle 出现锁表了，如何处理

出现锁表的情况很多种，但是大部分情况都是更新表，然后并没有提交，导致数据库的表被锁的情况。处理方式也比较简单，如下： 查询是否有表锁： select count(1) count from v$locked_object; 如果查询出来的数量…

阅读更多...

短文重复性检测综述，谷歌文本重复性检测: Detect duplicate content like Google

短文重复性检测综述，谷歌文本重复性检测: Detect duplicate content like Google

文本重复性检测一直是NLP等领域非常重要的一项研究工作，今天 #paperClub# 给大家翻译一下"Detect duplicate content like Google"。重复的内容是影响网站排名的最重要的负面因素之一。这就是为什么近重复检测 (NDD) 在任何 SEO 应执行的任务之间占据重要…

阅读更多...

词云图：统计一个文本中词出现的次数。

词云图：统计一个文本中词出现的次数。

在进行词云图的创作时，统计词语的出现频率是非常有意义的，可以依据词语频率的高低来判断词云图是否准确。选择小说中的某一章节，利用程序统计词语出现的次数。程序如下： # -*- codeing utf-8 -*- # Time : 2021/12/12 1:21 # A…

阅读更多...

chatgpt赋能python：Python词语分类

chatgpt赋能python：Python词语分类

Python词语分类 Python是一种高级编程语言，它有很多词语，其中一些可能令你在学习Python时感到困惑。在这篇文章中，我们将探讨Python词语的分类，以帮助您更好地理解Python编程。变量与数据类型在Python中，变量用于…

阅读更多...

DaVinci：Camera Raw（ARRI）

DaVinci：Camera Raw（ARRI）

本文主要介绍 ARRI 的 Raw 格式素材相关的 Camera Raw 参数。解码质量 Decode Quality 解码质量决定了图像解拜耳之后所呈现的素质，也与最终的输出息息相关。默认为“使用项目设置” Use project setting，表示使用项目设置对话框中的“Camera RAW”解码…

阅读更多...

DaVinci_Resolve_Studio_18.1.1达芬奇图文安装教程及下载

DaVinci_Resolve_Studio_18.1.1达芬奇图文安装教程及下载

DaVinci Resolve最大的特点是，将剪辑、调色、视觉特效、动态图形和音频后期制作融于一身，它采用美观新颖的界面设计，易学易用，能让新手用户快速上手操作，还能提供专业人士需要的强大性能。 DaVinci Resolve 18是一次重…

阅读更多...

davinci使用笔记（1）

davinci使用笔记（1）

第一节主要介绍达芬奇17的各个界面以及第一次使用的注意事项和主要设置。这是达芬奇打开出现的界面，如图这是一个项目工程界面，我们可以在这里新建新的项目和和对项目进行分类，在这个界面右下角有三个按钮，其中第二个按钮是新建文…

阅读更多...

达芬奇调色DaVinci Resolve Studio18v18.1.4 2023中文版更新发布，支持intel/M1/M2芯片

达芬奇调色DaVinci Resolve Studio18v18.1.4 2023中文版更新发布，支持intel/M1/M2芯片

达芬奇是世界上唯一在单一软件环境中进行剪辑、调色、视觉效果、图形和音频后期处理的解决方案。其现代、时尚的界面简单直观，对于新手和有经验的用户来说都足够了。 DaVinci Resolve 无需掌握多个应用程序或在不同系统之间切换，极大地简化了您的创作过…

阅读更多...

TI DaVinci(达芬奇)入门

TI DaVinci(达芬奇)入门

（转载来自德州仪器半导体技术（上海）有限公司通用DSP 技术应用工程师崔晶德州仪器（TI）的第一颗达芬奇（DaVinci）芯片（处理器）DM6446已经问世快三年了。继DM644x之后&am…

阅读更多...

davinci 达芬奇BI工具

davinci 达芬奇BI工具

Davinci 是一个 DVAAS（Data Visualization as a Service）平台解决方案，面向业务人员/数据工程师/数据分析师/数据科学家，致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用，也可作为可视化插件集…

阅读更多...

ChatGPT3.0 text-davinci-003 表现诡异

ChatGPT3.0 text-davinci-003 表现诡异

最近想试用一下通过API调用ChatGPT，在测试 gpt-3.5-turbo 的时候遇到了“openai.error.InvalidRequestError: This is not a chat model and thus not supported in the v1/chat/completions endpoint. Did you mean to use v1/completions? ”的问题。所以该尝试…

阅读更多...

中国元宇宙科技有限公司+《星云虚境》+AI虚拟数字人+chatgpt

中国元宇宙科技有限公司+《星云虚境》+AI虚拟数字人+chatgpt

随着人工智能、虚拟现实等技术的不断发展，中国元宇宙科技有限公司计划推出一款名为《星云虚境》的虚拟数字人平台。该平台将采用AIchatgpt等技术，为用户提供更加真实、智能的虚拟人体交互体验，为未来的数字化生活带来新的可能性。未来&…

阅读更多...

最新文章

推荐文章