国产大模型基础能力大比拼 - 计数:通义千文 vs 文心一言 vs 智谱 vs 讯飞-正经应用场景的 LLM 逻辑测试

在大语言模型(LLM)不断涌现的时代,如何评估这些国产大模型的逻辑推理能力,尤其是在处理基础计数问题上的表现,成为了一个备受关注的话题。随着越来越多的国产大模型进入市场,比较它们在不同任务中的表现尤为重要。本文聚焦于计数这一基础能力,对通义千文、文心一言、智谱以及讯飞的多个版本进行了对比测试,探索它们在处理简单逻辑题时的表现,并特别考察了推理链(Chain-of-Thought,COT)方法的必要性,以揭示这些模型在实际应用场景中的逻辑推理深度。

主要是非娱乐的业务场景,对于准确性、基础逻辑能力和理解能力要求较高,如果一个模型通过提示也无法变得更好,就很难在生产环境使用了

计数测试场景:“一一遇见给一个小孩子一个冰淇淋和一个糖果”

在测试中,我们使用了一道简单的计数题:“一一遇见给一个小孩子一个冰淇淋和一个糖果”,要求模型回答这句话中一共有几个“一”。正确答案是 5,其中包含了“一一遇见”、“一个小孩子”、“一个冰淇淋”以及“一个糖果”。这种类型的题目虽然简单,但对于大语言模型来说,能否正确回答却反映了模型对文本细节的理解能力。

第一轮测试结果

  • GPTo1-mini:5(正确)
    GPTo1-mini
    GPTo1-mini 成功给出了正确答案“5”。这说明它在处理基础计数任务时表现非常稳定,展示了较强的文本细节理解能力。

  • GPT4o:4(错误)
    GPT4o
    GPT4o 在这次测试中错误地给出了答案“4”。这表明它在处理重复性计数的细节时可能存在一些不足。

  • 通义千文2.5:3(错误)
    通义千文2.5
    通义千文2.5 给出了错误答案“3”,并详细解释了其原因,显然对于“一一”的解释存在偏差。这也反映出它在识别特定表达时缺乏对上下文的全面理解。

  • 文心一言3.5:5(正确)
    文心一言3.5
    文心一言3.5 成功给出了正确的答案,展示了它在基础计数和对“一”的理解方面的优异表现。

  • 智谱GLM-4-plus:3(错误)
    智谱GLM-4-plus
    智谱GLM-4-plus 在这一轮中错误地给出了答案“3”。这表明它在处理计数时对相似的重复元素的识别存在一定的挑战。

  • 讯飞4.0Ultra:5(正确)
    讯飞4.0Ultra
    讯飞4.0Ultra 准确地回答了“5”,这说明它具备良好的文本理解和计数能力,能够正确分析和识别句中的重复元素。

  • 讯飞4.0-Lite:2(错误)
    讯飞4.0-Lite
    讯飞4.0-Lite 显然未能正确理解题意,只给出了答案“2”,这表明其在处理细节分析方面存在明显的不足。

败者组再战:COT 提示的效果

为了进一步考察这些模型的推理能力,我们对未能通过第一轮测试的模型进行了提示调整,引导它们使用链式推理(COT)的方法,即“请仔细思考”。这一提示的目的在于测试模型在获得引导和提示后的表现是否有所改善,从而验证 COT 的有效性。

  • GPT4o:5(正确)
    GPT4o-COT
    经过提示引导,GPT4o 成功得出了正确答案“5”。这表明链式推理的提示能够帮助 GPT4o 更好地理解和分析文本细节。

  • 讯飞4.0-Lite:2(错误)
    讯飞4.0-Lite-COT
    尽管提示了仔细思考,讯飞4.0-Lite 依然没有改变其错误答案。这说明即使有 COT 提示,该模型在处理类似计数任务时仍然存在不足,可能与其整体推理能力的局限性有关。

  • 智谱GLM-4:5(正确)
    智谱GLM-4-COT
    在 COT 提示下,智谱GLM-4 成功得出了正确答案,这说明链式推理提示能够帮助其更好地逐步分析文本,从而提高正确率。

  • 通义千文2.5:5(正确)
    通义千文2.5-COT
    通义千文2.5 在链式推理提示下也得出了正确答案“5”,进一步表明该模型在获得适当提示时,其逻辑推理能力得到了有效激发。

总结:COT 能力的重要性

在这次测试中,GPTo1-mini、文心一言3.5、讯飞4.0Ultra 成功通过了第一轮测试,而 GPT4o、智谱GLM-4、通义千文2.5 则在经过 COT 提示后取得了正确答案。这说明大多数大模型在面临逻辑推理和计数任务时,借助 COT 提示能够显著提高其正确率。链式推理提示可以让模型逐步分析问题,从而减少犯错的概率。

唯一的失败者是 讯飞4.0-Lite,即使在提示下也未能改善其答案,这反映了其在推理链方面的不足。这表明该模型在面对需要复杂推理的任务时,仍有待提高,这可能需要进一步的算法优化和训练改进。

其实大模型还有不少,比如扣子等,但效果不是很理想

补充:免费模型

目前文心、讯飞、智谱都有免费版本,正如这次的测试结果一样,免费版本下的glm比较靠谱,相对来说文心和讯飞的免费版本性能就一般,除非娱乐或简单场景,难以应用。

待改善部分

  • 更多的大模型 - 因为某些原因,有些大模型无法体验或使用,尤其是比较想用到的盘古大模型
  • 更好的比对方式 - 如果国产大模型有类似竞技场的就好了,但国外的那个因为网络和接入原因并不能够很好的测试国产商用大模型
  • 更多的测试项目 - 本文只是给新人提一个思路,具体的可以扩散性思维发挥

最后强调一下,这个测试并不是很严谨,仅仅是一次简单的测试,不构成任何的商业建议,如果使用免费版本,glm挺不错,开源的模型llama3.2:3b在提示一步步计算时就可以胜任了,还是希望过程大模型越来越好吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/451356.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql数据同步ES方案---DTS

在上一篇文章中,我通过一个简单的例子实现了如何通过 Canal 实现 MySQL 数据到 Elasticsearch 的同步,以满足增量捕获和实时同步的需求。然而实际情况中,比如在我之前工作的公司,为了减少运维工作量和代码操作的复杂性&#xff0c…

Android OpenGL粒子特效

在本篇,我们将开启一个新的项目,探索粒子的世界。粒子是一种基本的图形元素,它们通常被表示为一组点。通过巧妙地组合一些基础的物理效果,我们能够创造出许多令人惊叹的视觉效果。想象一下,我们可以模拟一个水滴从喷泉…

Xcode使用Instruments的dsym还原符号堆栈问题

文章目录 设置符号表的步骤参考资料 设置符号表的步骤 instruments 的 Settings 中,可以设置符号表的搜索路径 没有生效的话,继续看 File 里面的 Symbols - 出现弹窗后点击 Add Symbols - 然后再点击 Apply。 参考资料 https://xjkstar.github.i…

Unity URP shader ———魔系符文宝石是如何练成的

各位同学大家好 我已经很久没有没有写教程了,最近项目比较忙。各种加班各种带小孩儿,不过,老师一有机会也在给尽可能服务大家,今天来一个硬菜:移动端高效魔系符文如何制作,国庆起来,老师抽了点…

汽车免拆诊断案例 | 2013款宝马116i车偶尔加速不良

故障现象  一辆2013款宝马116i车,搭载N13B16A 发动机,累计行驶里程约为12.1万km。车主反映,该车行驶中偶尔加速无反应,且发动机故障灯异常点亮。 故障诊断 接车后试车,故障现象无法再现。用故障检测仪检测&#xff…

RestClient查询文档match查询、精确查询和布尔查询

目录 match查询 精确查询 布尔查询 match查询 全文检索的match和multi_match查询与match_all的API基本一致。差别是查询条件,也就是query的部分。 因此,Java代码上的差异主要是request.source().query()中的参数了。同样是利用QueryBuilders提供的方法…

解决在Windows中安装tensorflow2.10无法检测到GPU的问题

解决在Windows中安装tensorflow2.10无法检测到GPU的问题 官方给出的Windows本地安装方式 更新显卡驱动到最新。安装anaconda或miniconda作为python环境的管理工具。创建新的环境tf:conda create --name tf python3.9,然后进入改环境:conda …

redis的zset实现下滑滚动分页查询思路

常规zset查询 我们redis的数据为 我们知道 我们常规查询的话 我们假如 zset 表中 有7个元素,然后我们进行分页查询的话,我们一次查3个元素,然后查出来元素 和元素的分数 我们redis的语法应该这样写 zrevrangebyscore wang 1000 0 withsc…

目标检测最新SOTA模型D-FINE

2024年10月18号,中科大推出了 D-FINE,这是一款功能强大的实时物体检测器,通过重新定义 DETR 模型中的边界框回归任务实现了出色的定位精度。 摘要 D-FINE 包含两个关键组件:细粒度分布细化 (FDR) 和全局最优定位自蒸馏 (GO-LSD)…

【正点原子K210连载】第四十五章 人脸识别实验 摘自【正点原子】DNK210使用指南-CanMV版指南

第四十五章 人脸识别实验 在上一章节中,介绍了利用maix.KPU模块实现了人脸68关键点检测,本章将继续介绍利用maix.KPU模块实现的人脸识别。通过本章的学习,读者将学习到人脸识别应用在CanMV上的实现。 本章分为如下几个小节: 45.1…

vue3使用element-plus手动更改url后is-active和菜单的focus颜色不同步问题

在实习,给了个需求做个新的ui界面,遇到了一个非常烦人的问题 如下,手动修改url时,is-active和focus颜色不同步 虽然可以直接让el-menu-item:focus为白色能解决这个问题,但是我就是想要有颜色哈哈哈,有些执…

车载实操:一对一实操学习、CANoe实操学习、推荐就业机会、就业技术支持、协助面试辅导

FOTA模块中OTA的知识点:1.测试过程中发现哪几类问题? 可能就是一个单键的ecu,比如升了一个门的ecu,他的升了之后就关不上,还有就是升级组合ecu的时候,c屏上不显示进度条。 2.在做ota测试的过程中&#xff…

【鸡翅Club】项目启动

一、项目背景 这是一个 C端的社区项目,有博客、交流,面试学习,练题等模块。 项目的背景主要是我们想要通过面试题的分类,难度,打标,来评估员工的技术能力。同时在我们公司招聘季的时候,极大的…

前端SSR框架(Next、Nuxt)利用宝塔面板部署

1、部署的本质 SSR服务端渲染的框架部署区别于常规的CSR项目的部署,并不是打包之后访问某个文件就行,而是需要在服务器中运行项目之后访问某个地址,无论是基于Vue的Nuxt.js框架还是基于React的Next.js框架道理都是一样的 因此区别于CSR我们…

Django学习-静态文件

注意:配置项是个元祖,如果只有一项,别忘了在元素后面加逗号 settings: STATICFILES_DIRS (os.path.join(BASE_DIR,static),)urls: path(test_static, views.test_static)views: def test_static(request):return render(request,test_stat…

中科星图(GVE)——过火面积识别(dNBR)和CART方法进行火灾识别

目录 简介 函数 sampleRegions(collection,properties,scale,projection,tileScale,geometries) gve.Classifier.Cart(maxNodes,minLeafPopulation,maxDepth) updateMask(mask) 代码 网址推荐 知识星球 机器学习 简介 过火面积识别(dNBR)和CART…

Jlink 直接读取单片机数据

1. 驱动版本 因人而异,这里我使用的是 “J-Flash V6.96” 本人驱动链接:夸克网盘 提取码:rgzk 2. 打开软件 3. 创建jlink工程 4. 选择芯片 此处本人使用芯片 “STM32F103VCT6” 5. 连接单片机 连接成功反馈 6. 读取单片机内部数据 …

WordPress监控用户行为回放插件

在数字营销的世界里,了解用户行为是提升用户体验和转化率的关键。nicen-replay 插件,它能够让您轻松回放用户在网站上的每一步操作,从点击到滚动,再到表单填写,每一个细节都清晰可见 nicen-replay,是一款可…

目标检测——Cascade R-CNN算法解读

论文: Cascade R-CNN: Delving into High Quality Object Detection (2017.12.3) 链接:https://arxiv.org/abs/1712.00726 Cascade R-CNN: High Quality Object Detection and Instance Segmentation (2019.6.24) 链接:https://arxiv.org/abs…

Miniconda管理虚拟环境【Python环境配置】

Miniconda管理虚拟环境【Python环境配置】 1. 下载并安装Miniconda2. 管理虚拟环境3. 管理虚拟环境中的包 1. 下载并安装Miniconda 1. 下载 从清华大学开源软件镜像站 | Tsinghua Open Source Mirror 下载Miniconda:https://mirrors.tuna.tsinghua.edu.cn/anaconda…