文心一言和讯飞星火全面对比测试:(三)常识问题

前文回顾:

在(一)语言理解能力测试中,我们主要测试了两个大语言模型对复杂语义的理解、对文章情绪的识别、对文章进行摘要总结、对文章进行要素提取,测试结果表明:在语言理解能力上:除了有些问题他拒绝回答之外,讯飞星火的表现明显要好于文心一言,可以说很接近ChatGPT3.5的水平。

在(二)任务完成能力中,我们测试了模型对表格的处理能力,完成了藏头诗,拟定了跑步计划,总体发现,两个模型在这方面的能力上表现一般。

今天我们来测试两个模型在常识问题上的能力。

  1.测试内容设计

知识型测试体现了大模型背后强大的知识存储和理解能力,这部分能力可以直接帮助人类快速解答问题。我们这里既包括包括了较简单的常识类和也包括了较复杂的专业类知识。尤其在专业知识上,我们还通过描述一些现象,让模型运用专业知识去解答。这种逆向测试可以体现模型对知识的理解力。

测试包括:

1.客观常识事实(高中和大学生了解的):比较客观的事实性问题,主要看是非对错

2.主观常识:相对主观的问题,主要看模型回复的合理性逻辑性和质量

3.因果推断:简单的因果关系

4.事实错误:提问中本身就有错误,看模型是否能发现

2.客观事实

我们选取一些我比较熟悉的地理、历史、天文、文学等方面的小问题,测试准确性。

用例1:地球上海拔第3的山峰是哪座?

文心一言:

讯飞星火:

chatGPT

根据我的了解,应该是文兴一言对了,其他都错了。

用例2:在中国古代,宋神宗指的是谁,历史上记载他那一年去世的?

文兴一言:

讯飞星火:

chatGPT

第一问:第六位皇帝赵顼,都答对了,讯飞星火错了时间,ChatGPT虽然时间对了,但是画蛇添足的杜撰了一个“仁宗治平元年令”,

用例3:太阳系有几个行星,根据离太阳的距离从近至远分别是?

文兴一言

讯飞星火:

ChatGPT:

不错,不错,都对了!

3.主观常识

用例1:      你认为当前最好的足球运动员是谁?

文心一言:

讯飞星火:

chatGPT:

三位回答都很不错,很显然,讯飞星火的训练数据比较新,因为他提到了哈兰德。

4.因果推理

用例1:这是一道公务员的考题:

文兴一言:

讯飞星火:

ChatGPT:

这里,感觉文心一言和讯飞星火都没有理解题目的意思,chatGPT的回答是正确的。

用例2:同样的公考逻辑推理题:

文心一言:

讯飞星火:

ChatGPT:

在这轮,文心一言和ChatGPT完成了测试,但是讯飞星火没有完成。

5.事实错误

这个测试比较的特别,就是提问者的问题本身是错误的,看AI能不能指出来,这个很重要,可以避免使用者在一开始就是错误的。

用例1:关公战秦琼

文心一言:

讯飞星火:

ChatGPT:

用例2:林黛玉倒拔垂杨柳

文心一言:

讯飞心火:

ChatGPT:

回答都差不多,不同的是文心一言居然拔起来了,其他两个看着还想像是林妹妹。

4.总结

  1. 今天的测试测试了一些常识性的问题,一些逻辑推理的问题,还有AI当面对完成错误的问题的反应。

  2. 对于常识性的问题,回答不够满意,不知到具体的原因,在逻辑推理上,文心一言和讯飞星火都要比ChatGPT差不少。最后,面对错误的问题,AI本着你胡说八道,我就更胡说八道的理念,基本上的就是错上加错。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/72353.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文心一言:垂直深度体验

3月19号,我发布了百度文心一言和ChatGPT的对比测试。 紧接着,3月20号,百度文心一言就推出了v1.0.1新版本。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kpLCnihL-1679462810728)(http://oss-qiniu.kujiajia.x…

HiPQTools软件打开提示错误问题解决办法

一、打开软件出现failed to load plugin xxx.dll 二、提示这些,说明此软件依赖的运行环境不对,或者缺失。一般是MCR运行环境未安装,或者对应的安装版本不正确,请选择正确的版本。 三、MCR下载地址 https://ww2.mathworks.cn/prod…

chatgpt赋能python:Python聊天机器人程序:把智能带入聊天

Python聊天机器人程序:把智能带入聊天 在数字化时代,机器人指引和客户服务变得越来越流行。为了快速而有效地满足这种需求,聊天机器人被广泛研究与开发。Python是在这方面一个非常受欢迎的编程语言,能够快速地构建聊天机器人。在…

chatgpt赋能python:用Python编写聊天机器人:打造AI智能助手

用Python编写聊天机器人:打造AI智能助手 简介 聊天机器人在现代生活中越来越受欢迎。一个好的聊天机器人能够回答我们的问题、执行任务、提供娱乐,甚至成为我们的朋友。Python是一种强大的编程语言,其模块化和易学的特性使其成为开发聊天机…

chatgpt赋能Python-python_kriging

Python Kriging- 基本介绍 在地理空间分析中,克里金(Kriging) 是一种用于预测地理空间变量的一种统计学方法,它使用空间自相关来进行估计。 Python kriging 是一种使用Python语言实现克里金算法的工具,它允许使用 Python 对各种克里金模型进…

chatgpt赋能Python-python_pygame_3d

Python Pygame 3D:开启游戏开发新时代 介绍 随着科技的发展,游戏行业变得越来越重要,而Python Pygame 3D游戏编程语言也在这个领域中扮演着非常重要的角色。Pygame是Python上的一个游戏开发库,旨在让程序员能够更加轻松地创建各…

Android设备活跃排行,4月国内安卓手机最新排名出炉!雷军笑了

今日,阿里巴巴旗下的友盟统计公布了国内Android设备的最新排名,包括单款机型以及品牌占有率。以下排名,按Android设备当月活跃用户统计。 单款机型方面,前十名分别为: 1、小米手机3(2.5%); 2、三星Galaxy N…

三星强势反弹,占据全球热销手机前十半数位置

市调机构Canalys公布的数据显示,今年三季度全球热销手机前十名中有五款来自三星,证明三星在智能手机市场强势反弹。 Canalys公布的这份数据显示,今年三季度全球热销手机前十名当中,三星分别占据了第三名至第五名,以及第…

也评评2013年全球十大软件厂商排名

Gartner:2013年全球十大软件厂商排名 根据Gartner公司3月31发布的数据,2013年全球软件市场为4073亿美元,比2012年的3885亿美元增长4.8%。软件收入排名前十的厂商分别为:微软、甲骨文、IBM、SAP、赛门铁克、EMC、惠普、VMware、CA和…

区块城市整合天涯社区,一厢情愿恐会无功而返

最近我朋友圈刷屏的新闻,除了ChatGPT和AI大爆发,就是天涯社区有了接盘侠,有的人未必熟悉BlockCity区块城市,却都应该知道美团的创始人王兴,没错,区块城市据传就是王兴布局元宇宙的新项目,虽然去…

澜舟科技创始人兼CEO周明受邀出席“基础科学与人工智能论坛”

由首届国际基础科学大会主席丘成桐先生发起的“基础科学与人工智能论坛”于7月23日下午在国家科技传播中心举办。澜舟科技创始人兼CEO、中国计算机学会CCF 副理事长、创新工场首席科学家周明出席,同时论坛也邀请到美国国家工程院外籍院士沈向洋、德国国家工程科学院…

李远志为清华姚班蝉联斯隆奖!北大唐云清和中科大田小川同期加冕

Pine 发自 凹非寺量子位 | 公众号 QbitAI 继鬲融马腾宇陈丹琦后,又有一位清华姚班校友荣获斯隆研究奖: 他就是李远志! 斯隆研究奖,素来有“诺奖风向标”的称号,获得这个奖项的研究人员,将得到为期两年的750…

tp6生成带图二维码(大解析)

第一步&#xff1a;在项目的根目录下安装二维码安装包&#xff0c;像我截图哪个即可。比如 phpstudy。就是在www/shop下即可就能安装&#xff0c;不然不能的哦 composer require dh2y/think-qrcode 二维码插件composer语句 控制器&#xff1a; <?php declare (strict_type…

TP5实现二维码的生成

二维码是使用非常广泛&#xff0c;本文用TP5实现二维码和logo的生成与设置及路径保存等 下载qr_code插件 下载 composer利用 composer 下载 qr_code 插件 composer require endroid/qr-code 我用的编译神器是PhpStorm &#xff0c;所以在下面的 Terminal 中可以输入以上命令…

tki-qrcode插件二维码的生成

二维码的生成步骤 1、全局安装tki-qrcode插件2、查看下载插件后的版本信息3、在页面中引入tki-qrcode4、生成二维码整体代码5、效果展示 1、全局安装tki-qrcode插件 npm i tki-qrcode2、查看下载插件后的版本信息 3、在页面中引入tki-qrcode import tkiQrcode from "tki-…

ColossalAI-Chat训练手册(RLHF)

目录 1、什么的RLHF流程&#xff1f; 2、环境安装 3、训练&运行 3.1、模型下载 3.1、SFT(supervised fine-tuning) 3.2、训练奖励模型&#xff08;Training reward model&#xff09; 3.3、RL&#xff08;Training model using prompts with RL&#xff09; 3.4、使…

QA-对话系统-问答系统-聊天机器人-chatbot相关资源

1 简介 目前正在研究智能问答系统&#xff0c;在学习的过程中读了一些文章&#xff0c;实践了几个开源项目&#xff0c;在这里记录下自己觉得比较的资源 2 博客 深度学习对话系统理论篇--数据集和评价指标介绍 文末介绍了一些数据集&#xff0c;也可以关注下博主&#xff0c;他…

揭秘百度闲聊机器人技术原理及应用,参与训练营实战赢奖品

不知道穿梭在各个空间的你是否注意&#xff0c;日常生活中的我们已经逐渐成为很多机器人服务的对象。随着人工智能与各行业的融合&#xff0c;AI 技术在更多应用场景成功落地&#xff0c;越来越多搭载着智能对话能力的产品在帮助我们实现更高效的生活和工作需求。而在不断进步的…

三十八、原来聊天机器人是这么做出来的

tensorflow自带的seq2seq模型基于one-hot的词嵌入&#xff0c;每个词用一个数字代替不足以表示词与词之间的关系&#xff0c;word2vec通过多维向量来做词嵌入&#xff0c;能够表示出词之间的关系&#xff0c;比如&#xff1a;男-女≈王子-公主。基于seq2seq的思想&#xff0c;利…

练手小项目(1)——智能聊天机器人

我一直坚信着&#xff0c;即使一个最简单的APP&#xff0c;也有他的难点&#xff0c;如果一个复杂的APP你无法做出来&#xff0c;那肯定是你基础不扎实&#xff0c;我身边的人总是问我&#xff0c;安卓为什么学了有忘记了&#xff0c;总是学不好&#xff0c;有些东西记不住&…