从一个简单的计算问题,看国内几个大语言模型推理逻辑能力

引言

首先,来看问题:

123456*987654等于多少,给出你计算的过程。

从openai推出chatgpt以来,大模型发展的很快,笔者也经常使用免费的大语言模型辅助进行文档编写和编码工作。大模型推出时间也好久了,笔者想当然的认为这样一个简单的计算问题,应该很容易得到正确的结果和答案,可是从得到的回答看,大模型的逻辑推理能力显然还不太行,还有这样或者那样的问题。

比较结果

下面表格是这个问题国内的几个大模型回答的结果比较(后附回答截图)。唯一笔者认为完美无错的给出解答的是文心大模型turbo4.0,果然花钱的就是要香一些。在回答问题的过程中,笔者诧异的发现文心大模型3.5、通义千问2.5、月之暗面在子计算过程中犯几乎一样的错误,难免会让人浮想联翩:三个大模型是同一个模型出来的?对比chagpt,计算过程不完整,结果也错误。看来国外和国内的在推理逻辑上并没差多少。

从我的角度看,如果给出的计算过程正确,说明具有一定的推理逻辑能力。但是为什么一个简单的计算结果却还是出错,让笔者又不得不怀疑现在大模型的逻辑推理能力,对数学计算并不完全理解?

模型

计算过程

结果

对问题的理解

文心大模型3.5

缺少部分子计算,子计算过程存在错误

错误

理解,给出了计算过程

文心大模型4.0

复杂化计算,计算过程存在错误

错误

理解,给出了计算过程,但给出了复杂化的计算过程

文心大模型turbo4.0

正确

正确

理解,给出了计算过程

通义千问2.5

部分子计算过程错误

错误

理解,给出了计算过程

深度求索2.5

正确

错误

理解,给出了计算过程

月之暗面

部分子计算过程错误

错误

理解,给出了计算过程

星火大模型

正确

错误

部分理解,再次提问才给出了计算过程

智普轻言

缺少部分子计算过程,子计算过程存在错误

正确

部分理解,再次提问才给出了计算过程

Chatgpt4o

缺少部分子计算过程

错误

理解,给出了计算过程

结论

从测试结果来看,笔者认为文心大模型turbo4.0逻辑性推理性都还可以,深度求索2.5次之,其他的暂时还不太行。大名鼎鼎的chagpt过程和结果也不行,所以咱们也不要妄自菲薄,相信国人的智慧。

具体的过程和结果看截图:

文心大模型3.5

123456为毛乘以4确等于740736,请记住这个结果,后边部分的模型计算过程中也会出这样的错,师出同门吗?位数全搞错了,还少位数。

文心大模型4.0

看到这个因式分解,脑洞之大开,不得不让人感叹很强大,说一声厉害,但一顿操作猛如虎,结果只能让人呵呵了。

文心大模型turbo4.0

完美,虽然最后结果可能调用了计算器或者代码,但使用的目的不就是为了省心,不出错吗。花了1毛钱,找的免费试用的链接,花钱的就是香。


通义千问2.5

计算过程中的个位、千位计算错误,明明写的123456*4,实际值却是乘以6。


深度求索2.5

推理过程正确,但为毛结果错误???


月之暗面

计算的逻辑有些问题,没理解不同的位数,个十百位混乱,但计算步骤正确,但是结果又是错误(按混乱后的个十百位计算出的结果之和)。这个第一个结果(740736),和文心一言3.5、通义千问一样的错误,让人不得不怀疑这三个模型是同根同源的。


星火大模型

第一次回答没给出计算过程,结果应该是调用计算器或者编程给出的,第二次给出计算过程,中间的计算正确,最后计算结果错误,又让人搞不懂了。推测无上下文逻辑联系功能,否则不会给出错误的结果还一本正经的胡说,稍微多几项的加法就算错就不行了。


智普轻言

第一次明明白白的告诉结果是调用代码生成的,第二次给出计算过程,部分子计算不正确,但结果又正确了,这让人也搞不懂了。推测结果是基于上下文,但是中间这个逻辑推理不行,说明并不理解计算。


Chatgpt4o

千位、万位计算缺失,也不过如此。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/455404.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【独家:AI编程助手Cursor如何revolutionize Java设计模式学习】

【独家:AI编程助手Cursor如何revolutionize Java设计模式学习】 导语 在Java高级编程的世界里,设计模式是每个开发者必须掌握的利器。但是,如何快速理解并灵活运用这些模式呢?让我们一起探索如何借助AI编程助手Cursor,轻松掌握设计模式,提升Java编程技能! 正文 设计模式:J…

易控天地|易控天地标准版3.0(EconTNT STD3.0)安装记录

哈喽,你好啊,我是雷工! 以前使用过的组态软件WinCC、杰控、MCGS、组态王、KingSCADA、KingFunsion等, 关于易控天地去年在现场见到过,接下来安装体验下易控天地; 以下为安装笔记。 01 解压缩 下载完安装…

【YOLO模型】(1)--YOLO是什么

一、什么是YOLO YOLO(You Only Look Once)是一种基于深度学习的目标检测算法,由Joseph Redmon等人于2016年提出。 1. 核心思想 它的核心思想是将目标检测问题转化为一个回归问题,通过一个神经网络直接预测目标的类别和位置。 …

[Linux] CentOS7替换yum源为阿里云并安装gcc详细过程(附下载链接)

前言 CentOS7替换yum源为阿里云 yum是CentOS中的一种软件管理器,通过yum安装软件,可以自动解决包依赖的问题,免去手工安装依赖包的麻烦。 yum使用了一个中心仓库来记录和管理软件的依赖关系,默认为mirrorlist.centos.org&#xf…

1208. 尽可能使字符串相等

Problem: 1208. 尽可能使字符串相等 题目描述 给定两个相同长度的字符串 s 和 t,将字符串 s 转换为字符串 t 需要消耗开销,开销是两个字符的 ASCII 码差值的绝对值。还有一个最大预算 maxCost,我们需要在这个预算范围内,找到 s 中…

时钟分频电路之Innovus自动产生的_clock_gen skew group盘点

我们在查看时钟树综合的log时会发现工具会自动生成一些skew group,这些skew group的名字都是以_clock_gen开头的。 skew_group _clock_gen_CLK_CORE_PLL_clk_reg_1/func: insertion delay [min0.020, max0.064, avg0.038, sd0.022], skew [0.045 vs 0.050], 100% {…

SSL证书有免费的吗?在哪里可以申请到?——附带申请步骤

申请免费的SSL证书通常可以通过以下几个步骤完成,这里以使用JoySSL为例进行说明,因为JoySSL提供了一个免费、自动化和开放的证书颁发机构(CA)来促进网站从HTTP向HTTPS的转换。 步骤: 选择工具: 访问JoySSL…

二百六十八、Kettle——同步ClickHouse清洗数据到Hive的DWD层静态分区表中(每天一次)

一、目的 实时数仓用的是ClickHouse,为了避免Hive还要清洗数据,因此就直接把ClickHouse中清洗数据同步到Hive中就行 二、所需工具 ClickHouse:clickhouse-client-21.9.5.16 Kettle:kettle9.2 Hadoop:hadoop-3.1.3…

汽车免拆诊断案例 | 2019 款奥迪 A6L 车行驶中偶发熄火

故障现象  一辆2019款奥迪A6L车,搭载2.0T发动机,累计行驶里程约为9万km。车主反映,车辆行驶中偶发熄火,故障频率较高。 故障诊断  接车后试车,起动发动机,可以正常起动着机。使用故障检测仪检测&#x…

Vue项目的创建

安装Vue工具 Vue CLI Vue CLI Vue.js 开发的标准工具,Vue CLI 是一个基于 Vue.js 进行快速开发的完整系统 npm install -g vue/cli安装之后,你就可以在命令行中访问 vue 命令。你可以通过简单运行 vue,看看是否展示出了一份所有可用命令的…

基于SSM邮票鉴赏系统的设计

管理员账户功能包括:系统首页,个人中心,用户管理,邮票信息管理,邮票分类管理,文章信息管理,系统管理,个人分享管理 用户账号功能包括:系统首页,个人中心&…

【正点原子K210连载】第四十八章 自学习分类实验 摘自【正点原子】DNK210使用指南-CanMV版指南

第四十八章 自学习分类实验 在上一章节中,介绍了利用maix.KPU模块实现了MNIST的手写数据识别,本章将继续介绍利用maix.KPU模块实现的自学习分类。通过本章的学习,读者将学习到自学习分类应用在CanMV上的实现。 本章分为如下几个小节&#xf…

Hallo2 长视频和高分辨率的音频驱动的肖像图像动画 (数字人技术)

HALLO2: LONG-DURATION AND HIGH-RESOLUTION AUDIO-DRIVEN PORTRAIT IMAGE ANIMATION 论文:https://arxiv.org/abs/2410.07718 代码:https://github.com/fudan-generative-vision/hallo2 模型:https://huggingface.co/fudan-generative-ai/h…

后端C++

前言 1. Task0 1.1 获取你的服务器 1.2 对服务器进行基本操作 分别创建文件夹dir_a, dir_b, dir_c进入dir_a,创建a.txt, b.txt, c.txt 将a.txt, b.txt, c.txt 分别复制成: a.txt.bak, b.txt.bak, c.txt.bak 将a.txt, b.txt, c.txt 分别重命名为: a_new.txt, b_new.txt, c_ne…

凹凸性和拐点的概念

二阶导不存在也可能是拐点 判断拐点的充分条件

Android Studio USB调试真机映射屏幕画面

Android Studio USB调试真机映射屏幕画面 文章目录 Android Studio USB调试真机映射屏幕画面一、USB连手机并设置开发者模式1.1 报错信息1.2 启用开发者选项和 USB 调试:1.3 手机配置选项 二、Android Studio 开启手机投屏功能 一、USB连手机并设置开发者模式 1.1 …

Flutter 小技巧之 equatable 包解析以及宏编程解析

今天我们聊聊 equatable 包的实现,并通过 equatable 去理解 Dart 宏编程的作用和实现,对于 Flutter 开发者来说,Dart 宏编程可以说是「望眼欲穿」。 equatable 正如 equatable 这个包名所示,它的功能很简单,主要是用…

计算机毕业设计hadoop+spark知识图谱中药推荐系统 中药材推荐系统 中药可视化 中药数据分析 中药爬虫 机器学习 深度学习 人工智能 大数据

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 摘 要 本文所探讨的领域是…

【Linux】“echo $变量“ 命令打印变量值的底层原理

在 shell 中,echo $变量 命令的工作原理涉及几个关键步骤,主要是由 shell 解释器来处理变量的查找和替换。以下是详细的过程: 变量展开的过程顺序 变量引用: 在命令行中,变量通常以 $variable_name 或 ${variable_…

若依前后端分离超详情版

若依系统安装流程 1.安装Ubuntu系统 1.1 新建虚拟机 打开VMware Workstation,选择文件->新建虚拟机->典型(推荐T)->安装程序光盘映像文件->输入虚拟的名字->一直下一步即可 安装程序光盘映像文件 注意:选择ub…