当四款AI大模型遇上考公真题,谁被难倒了?

在当今社会,人工智能(AI)正以不可思议的速度发展,并在各个领域崭露头角,给人们的生活和工作带来许多便利。AI大模型被誉为人类“第二大脑”,成为人们学习、生活、工作的 “智能助手”。

公务员考试在我国教育领域独具特色,受到了众多考生的关注和青睐。众所周知,在公务员考试的过程中,行测真题中以数量关系最难也最耗时,使得考生们备考压力不小。在这样的背景下,用AI大模型来做行测真题,它们能做对吗?

今天,我们来简单测评一下GPT-3.5、GPT-4、文心一言及通义千问在特定的场景下的实际能力究竟如何。

我们选取21年国家公务员考试《行测》真题

某地调派 96 人分赴车站、机场、超市和学校四个人流密集的区域进行卫生安全检查,其中公共卫生专业人员有 62 人。已知派往机场的人员是四个区域中最多的,派往车站和超市的人员中,专业人员分别占 64%和 65%, 派往学校的人员中,非专业人员比专业人员少 30%,问派往机场的人员中,专业人员的占比在四个区域中排名第几?

正确答案:排名第一

第一位AI大模型选手:GPT-4

简介:GPT-4是OpenAI发布的最新一代语言模型,于2023年3月14日正式发布,并通过API和ChatGPT Plus平台向用户开放。

答案:在四个区域中,机场的专业人员占比排名是第1


答案完全正确,过程十分详尽。

第二位AI大模型选手:GPT-3.5

简介:OpenAI于2023年3月1日正式发布GPT-3.5-turbo,它是目前最大规模的预训练语言模型之一,包含超过1亿个参数,可用于各种自然语言处理任务。

答案:在四个区域中排名第2

错误。

第三位AI大模型选手:通义千问

简介:通义千问是阿里巴巴推出的预训练语言模型。它是达摩院自主研发的超大规模语言模型,也能够回答问题、创作文字,还能表达观点、撰写代码。

答案:因此,在四个区域中,专业人员的占比排名为第 4 位

错误。

第四位AI大模型选手:文心一言

简介:文心一言(英文名:ERNIE Bot)是百度基于文心大模型技术推出的生成式对话产品,被外界誉为“中国版ChatGPT”,将于2023年3月份面向公众开放。

答案:在四个区域中排名第2

错误。

Beezy点评

1.准确性

GPT-4的回答

通过建立多个方程并进行代数运算,最终得到了机场的专业人员占比排名是第一。整个过程有明确的推导过程,考虑了所有限定条件。过程详尽且答案完全正确。

GPT-3.5的回答

不等式形式的推导不清晰、且错误,没有给出具体实际情况下的求解。

通义千问的回答

通过计算在四个区域的专业人员占比及非专业人员占比,然后求取排名,这个过程中存在明显错误。在计算四个区域的专业人员比例时,通义千问未考虑到不同区域的总人数已知且有限制条件,而直接将比例相加。此回答是错误的。

文心一言的回答

未建立方程,也没有给出详细推导过程,仅仅给出了结论。在准确性上,此回答并不可靠。

2.实用性

从实用性方面出发,GPT-4的回答明确描述了解题思路,并通过方程的建立及化简找到答案。相对于其他回答者,实用性更强。但考虑考公行测有非常强的时间限制,解题需要早1-2分钟内完成,因此,GPT-4可能在奥数方面不占优势。

3.数学逻辑推导

GPT-4的回答有明确的方程建立,符合题意,通过代入及化简,达到求解目的。推导过程较为严谨。

GPT-3.5的回答由于不等式条件的错误,导致其推导不清晰且错误,不符合题目条件。

通义千问的回答虽然有一定的推导过程,但其错误地将比例相加而未考虑实际限制条件,计算过程错误。

文心一言的回答没有建立方程,缺乏严谨的数学推导过程。

综合来看:GPT-4的回答在准确性、实用性和数学推导方面具有较优的表现。GPT-3.5、通义千问、文心一言三个回答的问题分别在于不等式条件错误、计算过程错误和缺乏推导过程。但结合实际考公行测过程中,严苛的时限性质,其实AI大模型未未必能完全达标。

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14647.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最短路径算法刷题笔记

Dijkstra最短路算法 理论 代码来自chatgpt&#xff0c;我感觉代码很好&#xff0c;比我在网上找到的好理解很多 #include <iostream> #include <cstring> using namespace std; const int N 110; const int INF 0x3f3f3f3f; int n, m; int g[N][N]; // 邻接矩阵…

动态规划算法刷题笔记【线性dp】

递推 斐波那契(Fibonacii)数列的递推公式&#xff1a;F(n) F(n -1) F(n - 2) 错排问题&#xff1a;F(n) (n-1) * [F(n-1)F(n-2)] 解释 例题 一只青蛙一次可以跳上1级台阶&#xff0c;也可以跳上2级台阶。求该青蛙跳上一个 10 级的台阶总共有多少种跳法 思路 要想跳到…

基础数论算法刷题笔记

理论 最小公倍数、最大公约数 (ab)%n (a%nb%n)%n (ab)%n (a%nb%n)%n a≡2(mod n) —— a%n2 lcm——最小公倍数 gcd——最大公约数 lcm(a,b) a*b / gcd(a,b) 最小公倍数两数的乘积除以最大公约数 但是写程序时应该是 a /gcd(a,b) *b 因为a*b可能会超出数据范围 例子&…

LLM - 搭建 DrugGPT 结合药物化学分子知识的 ChatGPT 系统

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://blog.csdn.net/caroline_wendy/article/details/131384199 论文&#xff1a;DrugChat: Towards Enabling ChatGPT-Like Capabilities on Drug Molecule Graphs DrugChat&#xff0c;基…

两句话就搞死chatgpt

事情是这样的&#xff0c;我在看一本书--思维风暴&#xff0c;看到一篇发散思维的内容&#xff0c;就想考考chatgpt,结果第一句话发过去&#xff0c;chatGPT就直接报错&#xff0c;刷新了下页面&#xff0c;接着继续问&#xff0c;等了不多见&#xff0c;chatgpt慢慢吐字&#…

人人都是ChatGPT prompt 工程师

关于 Prompt ​ 解释这个词之前&#xff0c;首先需要解释 prompt 这个词&#xff1a; 简单的理解它是给 AI 模型的指令。 它可以是一个问题、一段文字描述&#xff0c;甚至可以是带有一堆参数的文字描述。AI 模型会基于 prompt 所提供的信息&#xff0c;生成对应的文本&…

ChatGPT总结的“商汤日日新大模型”,亮点在文末!!!

关注并星标 从此不迷路 计算机视觉研究院 公众号ID&#xff5c;ComputerVisionGzq 学习群&#xff5c;扫码在主页获取加入方式 计算机视觉研究院专栏 作者&#xff1a;Edison_G “我们正处于临界点。”在商汤科技董事长兼首席执行官徐立说出这句话后一个月&#xff0c;商汤科技…

装X型学习动机体系:我对成就目标定向理论(装逼)的研究,怎么让自己充满动力,这个我期待太久了

装X型学习动机体系&#xff1a;我对成就目标定向理论&#xff08;装逼&#xff09;的研究&#xff0c;怎么让自己充满动力&#xff0c;这个我期待太久了 本质篇&#xff1a;生命的本质是&#xff0c;渴望被看见动力篇&#xff1a;积极响应挑战&#xff0c;自恋克服惰性费曼学习…

40岁,刚被裁,想说点啥。

因公众号更改推送规则&#xff0c;请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号&#xff0c;领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇&#xff1a;ChatGPT研究框架&#xff08;80页PPT&#xff0c;附下载&#xff09;…

Go是一门面向对象编程语言吗

Go语言已经开源13年了[1]&#xff0c;在近期TIOBE[2]发布的2023年3月份的编程语言排行榜中&#xff0c;Go再次冲入前十&#xff0c;相较于Go在2022年底的排名[3]提升了2个位次&#xff1a; 《Go语言第一课》专栏[4]中关于Go在这两年开始飞起的“预言”也正在逐步成为现实^_^&am…

如何写出高质量的文章:从战略到战术

作者&#xff1a;明明如月学长&#xff0c; CSDN 博客专家&#xff0c;蚂蚁集团高级 Java 工程师&#xff0c;《性能优化方法论》作者、《解锁大厂思维&#xff1a;剖析《阿里巴巴Java开发手册》》、《再学经典&#xff1a;《EffectiveJava》独家解析》专栏作者。 热门文章推荐…

原力计划来了【协作共赢 成就未来】

catalogue &#x1f31f; 写在前面&#x1f31f; 新星计划持续上新&#x1f31f; 原力计划方向&#x1f31f; 原力计划拥抱优质&#x1f31f; AIGC&#x1f31f; 参加新星计划还是原力计划&#x1f31f; 创作成就未来&#x1f31f; 写在最后 &#x1f31f; 写在前面 哈喽&…

博弈论——选举/投票(voting)

文章目录 前言一、相对多数投票法&#xff08;Plurality Voting&#xff09;二、孔多塞准则&#xff08;The Condorcet Criterion&#xff09;三&#xff0c; 谷轮法&#xff08;Copeland method四&#xff0c;波达计数法&#xff08;Borda Count&#xff09;五&#xff0c;选举…

Java 设计模式(java design patterns)

什么是设计模式&#xff1f; 前辈们&#xff0c;在长期开发中为了解决某种重复出现的问题&#xff0c;经过长期的总结&#xff0c;代码结构优化&#xff0c;最终确定一套解决办法。 为什么学习设计模式&#xff1f; 对程序设是有帮助的&#xff0c;提高代码额可重用性&#…

叫ChatGPT用html+css+js写一个圣诞节代码,看看什么样子?

最近ChatGPT这么火&#xff0c;那就让他给我写点代码吧。 如何注册一个账号&#xff0c;参考&#xff1a;注册ChatGPT详细指南 注册不了的小伙伴们&#xff0c;咱们评论区见&#xff0c;问一个最想问的问题&#xff0c;看到就给你回复&#xff01; 我已经注册好了&#xff0c;…

前端实现六一儿童节祝福语分享,烟花特效助您表心意

部分数据来源&#xff1a;ChatGPT <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>六一儿童节祝福</title><style>body {background-image: url(https://picsum.photos/1920/1080);backgr…

chatgpt赋能python:10个好玩的Python代码-让编程更有趣!

10个好玩的Python代码- 让编程更有趣&#xff01; 作为一名有10年Python编程经验的工程师&#xff0c;我深刻理解到编程可以是一件令人兴奋和有趣的事情。Python是流行且多才多艺的编程语言&#xff0c;具有简洁易懂的语法和丰富的库&#xff0c;可以帮助开发人员快速轻松地实…

大型语言模型与文本摘要

大型语言模型与文本摘要 基于大型语言模型的抽取式摘要基于大型语言模型的零样本跨语言摘要基于大型语言模型的问答式摘要通过摘要任务评估大型语言模型的事实一致性基于大型语言模型的摘要事实一致性评估器未来方向大型语言模型的自我偏好基于大型语言模型生成提示基于大型语言…

ChatGPT玩起来真是上头,AI广泛应用元年体验AI之美

概述 ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型&#xff0c;一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话&#xff0c;还能根据聊天的上下文进行互动&#xff0c;真正像人类一样来聊天交流&#xf…

推荐一款idea神级代码插件【Bito-ChatGPT】而且免费!- 第9篇

历史文章&#xff08;文章累计460&#xff09; 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 文…