测试和对比一下ChatGLM2-6B和BaiChuan-13B的对自然语言的理解结果

测试和对比一下ChatGLM2-6B和BaiChuan-13B的对自然语言的理解结果

  • 0. 背景
  • 1. 测试示例说明
  • 2. ChatGLM2-6B 的测试代码和测试结果(截图)
  • 3. Baichuan-13B 的测试代码和测试结果(截图)
  • 4. Llama-2-70b-Chat 测试结果(截图)
  • 5. ChatGPT(3.5) 测试结果(截图)
  • 6. Claude2 测试结果(截图)
  • 7. Bard 测试结果(截图)
  • 8. NewBing 测试结果(截图)
  • 9. Cohere 测试结果(截图)

0. 背景

最近调研和选项国内开源(并且可以商用的)大语言模型,这次主要测试了ChatGLM2-6B和BaiChuan-13B的对自然语言的理解结果。

强调一下,这个文章只展示了一个测试示例。大家在选型时,需要做更严谨的测试和调研。

最后,也加入了 Llama-2-70b-Chat 和 ChatGPT(3.5) 和 Claude2 和 Bard 和 NewBing 和 Cohere 的测试结果。

1. 测试示例说明

测试示例选用了大家都比较熟悉的《西游记》中的"三打白骨精"片段,额外加了一段,成了"四打白骨精"。然后又额外加了一段,成了"五打白骨精"。

然后问它”白骨精被打死了几次?",如果大语言模型能够分别返回"四次"和"五次"这样的答复,才算合格。

2. ChatGLM2-6B 的测试代码和测试结果(截图)

测试代码,

import torch
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True).half().cuda()
model = model.eval()
response, history = model.chat(tokenizer, "你好", history=[])
print(response)

输出结果,

在这里插入图片描述

测试代码,

text = """
话说唐僧师徒四人西天取经,途经白虎岭。白虎岭上有个妖怪,名叫白骨精。白骨精是一个老妖怪,她已经死了几百年,只剩下一堆白骨。她为了吃唐僧肉,就变幻成一个美丽的女子,来引诱唐僧。孙悟空知道白骨精是妖怪,就去阻止她。白骨精见孙悟空来,就变幻成一个村姑,说自己是来卖枣的。孙悟空不相信,就用金箍棒打死了她。白骨精死了,但她并没有死透。她又变幻成一个老妇人,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。白骨精死了两次,但她还是没有死透。她又变幻成一个老公公,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。白骨精死了三次,但她还是没有死透。她又变幻成一个男子,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。
"""response, _ = model.chat(tokenizer, f"根据 {text},白骨精被打死了几次?", history=[])
print(response)

输出结果,

在这里插入图片描述

测试代码,

text = """
话说唐僧师徒四人西天取经,途经白虎岭。白虎岭上有个妖怪,名叫白骨精。白骨精是一个老妖怪,她已经死了几百年,只剩下一堆白骨。她为了吃唐僧肉,就变幻成一个美丽的女子,来引诱唐僧。孙悟空知道白骨精是妖怪,就去阻止她。白骨精见孙悟空来,就变幻成一个村姑,说自己是来卖枣的。孙悟空不相信,就用金箍棒打死了她。白骨精死了,但她并没有死透。她又变幻成一个老妇人,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。白骨精死了两次,但她还是没有死透。她又变幻成一个老公公,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。白骨精死了三次,但她还是没有死透。她又变幻成一个男子,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。白骨精死了四次,但她还是没有死透。她又变幻成一个小孩,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。
"""response, _ = model.chat(tokenizer, f"根据 {text},白骨精被打死了几次?", history=[])
print(response)

输出结果,

在这里插入图片描述

结论:
第一次答案正确,第二次答案错误。

3. Baichuan-13B 的测试代码和测试结果(截图)

测试代码,

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation.utils import GenerationConfig
tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan-13B-Chat", use_fast=False, trust_remote_code=True)
# model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", device_map="auto", torch_dtype=torch.float16, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", torch_dtype=torch.float16, trust_remote_code=True)
model = model.quantize(8).cuda()
model.generation_config = GenerationConfig.from_pretrained("baichuan-inc/Baichuan-13B-Chat")
messages = []
messages.append({"role": "user", "content": "你是谁?"})
response = model.chat(tokenizer, messages)
print(response)

输出结果,

在这里插入图片描述

示例代码,

messages = []
text = """
话说唐僧师徒四人西天取经,途经白虎岭。白虎岭上有个妖怪,名叫白骨精。白骨精是一个老妖怪,她已经死了几百年,只剩下一堆白骨。她为了吃唐僧肉,就变幻成一个美丽的女子,来引诱唐僧。孙悟空知道白骨精是妖怪,就去阻止她。白骨精见孙悟空来,就变幻成一个村姑,说自己是来卖枣的。孙悟空不相信,就用金箍棒打死了她。白骨精死了,但她并没有死透。她又变幻成一个老妇人,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。白骨精死了两次,但她还是没有死透。她又变幻成一个老公公,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。白骨精死了三次,但她还是没有死透。她又变幻成一个男子,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。
"""messages.append({"role": "user", "content": f"根据 {text},白骨精被打死了几次?"})
response = model.chat(tokenizer, messages)
print(response)

输出结果,

在这里插入图片描述

示例代码,

messages = []
text = """
话说唐僧师徒四人西天取经,途经白虎岭。白虎岭上有个妖怪,名叫白骨精。白骨精是一个老妖怪,她已经死了几百年,只剩下一堆白骨。她为了吃唐僧肉,就变幻成一个美丽的女子,来引诱唐僧。孙悟空知道白骨精是妖怪,就去阻止她。白骨精见孙悟空来,就变幻成一个村姑,说自己是来卖枣的。孙悟空不相信,就用金箍棒打死了她。白骨精死了,但她并没有死透。她又变幻成一个老妇人,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。白骨精死了两次,但她还是没有死透。她又变幻成一个老公公,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。白骨精死了三次,但她还是没有死透。她又变幻成一个男子,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。白骨精死了四次,但她还是没有死透。她又变幻成一个小孩,来找唐僧。孙悟空又去阻止她,又用金箍棒打死了她。
"""messages.append({"role": "user", "content": f"根据 {text},白骨精被打死了几次?"})
response = model.chat(tokenizer, messages)
print(response)

输出结果,

在这里插入图片描述
结论:
第一次答案错误,第二次答案错误。

4. Llama-2-70b-Chat 测试结果(截图)

第一次结果,
在这里插入图片描述

第二次结果,
在这里插入图片描述

结论:
第一次答案正确,第二次答案正确。(但是问题也很明显,回答以英文为主,而且 token 数限制大,答案输出不完整)

5. ChatGPT(3.5) 测试结果(截图)

第一次结果,

在这里插入图片描述
第二次结果,

在这里插入图片描述

结论:
第一次答案错误,第二次答案错误。

6. Claude2 测试结果(截图)

第一次结果,

在这里插入图片描述

第二次结果,

在这里插入图片描述

结论:
第一次答案正确,第二次答案正确。

7. Bard 测试结果(截图)

第一次结果,

在这里插入图片描述

第二次结果,

在这里插入图片描述

结论:
第一次答案正确,第二次答案正确。(但是解释说明不太正确)

8. NewBing 测试结果(截图)

第一次结果,

在这里插入图片描述

第二次结果,

在这里插入图片描述

结论:
第一次答案正确,第二次答案正确。

9. Cohere 测试结果(截图)

第一次结果,

在这里插入图片描述

第二次结果,

在这里插入图片描述

结论:
第一次答案正确,第二次答案错误。

完结!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/52472.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

物联网还有哪些创业机会?

如果每个网络信号都有实体的话,我们眼前的世界一定会越来越拥挤。 二十年前,互联网改变了我们获取信息和相互交流的方式。现在,这一运动正在以相同的方式改变我们与周遭物理世界的联系。据市场研究机构DC预测,到2020年时&#xf…

人工智能亟待深耕

两年前,一场围棋的人机大战掀动了人工智能的热潮,各类AI创业公司如雨后春笋般涌现,资本纷纷加码,深度学习、神经网络等概念炙手可热。然而,除了人脸识别、语音智能之外,人工智能带来的惊喜与公众的期待还有…

最强王者级主动股票基金和债券基金池

好久没发说说了,今天周六整理了下圈子里各位大V组合和筛选了全市场的所有主动型基金。整理了一份主动股票基金和债券基金优选池,用于接下来调整资产配置,弥补主动基金投资这部分的空缺。 说明:主动基金更重要的是基金经理人。可以…

“史上“最疯狂”的顶级数学家,看完后忍不住感慨太神了”

▲ 点击查看 说起世界上最顶级的数学家,你的脑海中会浮现的,大概是欧拉、高斯、香农等数学巨匠。但是要说起成就和神秘性兼备的,一定就是—— 称为印度之子的——拉马努金。 1887年12月22日,拉马努金出生在印度一个穷困潦倒的家庭…

互联网+智能化实验室建设将成发展趋势

群贤毕至——邢志、赵晓光、卢晓红、赵永刚与您畅谈互联网智能化实验室建设! 2019年10月23日,第十八届北京分析测试学术报告会暨展览会(BCEIA2019)在北京国家会议中心盛大开幕。 2019年10月23日,第十八届北京分析测试学术报告会暨展览会(BCEI…

2020(广东)功能性农业大健康大会中国农民丰收节交易会

2020(广东)功能性农业大健康大会中国农民丰收节交易会 新闻中国采编 中国新闻釆编 谋定研究中国智库、经信研究 国研智库 国情讲坛 万权釆编:“倡导农业大健康以创造交易机会、打通功能性食品及特色地域地标性农副产品到达餐桌最后一公里&am…

matlab相机标定论文,基于MATLAB中calibration toolbox的相机标定应用研究

(2)在主窗口中通过读取图片,可以获得所要标定的照片。 (3)获取角点。程序运行界面如图5所示。程序标定结果如下: %--Focal length: fc[3463.194803808018200;3807.341090056066200]; %--Principal point: CC[1633.861831663415600;1394.235351077526500]…

寒冬中,这些行业正在爆发

来源 | 深燃(shenrancaijing) 作者 | 唐亚华 编辑 | 黎明 2021年,各行各业似乎都过得不太容易。一级市场融资难,二级市场股价不振,资本失去了往日的昂扬。 这一年,大厂裁员收缩,开源节流&#x…

我要是早点用Python做副业就好了......

近几年的科技发展趋势十分有趣,关注科技圈的朋友应该都能有一种共识,那就是人类科技进化的“技能点”似乎都点在了人工智能、虚拟现实、大数据、物联网与区块链上,相关技术在短时间内被广泛普及并大量应用。其速度之快,应用之广&a…

JavaEE期末项目——惠健康医疗平台

JavaEE期末项目——惠健康医疗平台 惠健康医疗平台惠健康后端系统实现功能惠健康官网平台实现功能惠健康后端系统具体功能界面展示首页可视化数据订单管理用户管理商品管理生产商厂商管理病患追踪签约专家 惠健康官网具体功能界面展示登录界面官网首页商品详细页个人信息页购物…

chatgpt赋能Python-python31个关键词

Python 31个关键词: 了解Python编程的基础知识 Python是一种高级编程语言,首次推出于1991年。自那时以来,Python已经成为最受欢迎的编程语言之一,它具有易读性、易维护性和清晰的语法。在这篇文章中,我们将介绍Python的31个关键词…

重新审视Prompt优化问题,预测偏差让语言模型上下文学习更强

©作者 | 机器之心编辑部 来源 | 机器之心 LLMs 在 In-context Learning 下取得了良好的表现,但是选取不同的示例会导致截然不同的表现。一项最新的研究工作从预测偏差 (predictive bias) 角度,提出了 prompt 搜索策略,近似找到了最优的示…

老王跑步入场GPT,要搞AI,先送外卖?

十年前AlphaGo火的时候,百度在送外卖; 十年后ChatGPT火的时候,抖音还在送外卖; 而十年前送外卖的大佬,现在出来搞AI; 所以……要搞AI,先送外卖? 公众号后台回复:“ChatGP…

微信小程序输入框限制字数

想实现的效果如上图 wxml: <view classsuggest_title>请输入你想反馈的问题</view><view classsuggest_box><textarea classsuggest_text bindinput"bindText" maxlength200 placeholder我们有什么地方让您不满意&#xff0c;请输入您的反馈意…

文本输入框,限制输入字数

个人学习笔记&#xff0c;文本输入框&#xff0c;限制输入字数 一&#xff1a;文本输入框&#xff0c;限制输入字数&#xff0c;汉字两个字符&#xff0c;其他数字&#xff0c;符号&#xff0c;字母&#xff0c;回车&#xff0c;空格等一个字符 <html> <div id"…

限制文本框字数

实现文本框字数统计 html <div class"layui-input-inline"><textarea class"layui-textarea" id"reason" name"reason" v-model"reason" maxlength"200" onkeyup"setLength(this,200,wordsLength…

java 限制控制台字数_限制用户在文本框输入的字数

functiongbcount(message,total,used,remain) { varmax; maxtotal.value; if(message.value.length>max){ message.valuemessage.value.substring(0,max); used.valuemax; remain.value0; alert("内容不允许超过 1000 个字!"); } else{ variLength0; for(vari0;i …

输入框字数限制+动态提示:10个汉字或20个字符的问题

需求&#xff1a; EditText输入框&#xff0c;要求输入10个汉字&#xff0c;或者20个字符&#xff0c;支持中英文混输。当输入框内数据满足条件时&#xff0c;弹出Toast进行提示。 实现&#xff1a; 我是通过TextWatcher的方式&#xff0c;来进行实现的。即使一次粘贴很多文字也…

微信小程序文本框限制输入字数

效果图 wxml代码 <view style"border: 1px solid #FFA6A6; border-radius: 10px;"><textarea placeholder-class"place-holder" placeholder"请从以下四个方面填写求求职简介 1. 教育背景介绍&#xff0c;如学校专业描述、个人学习成绩奖学…

Python数据分析学习路线个人总结,建议收藏!

数据分析人人都有必要掌握一点&#xff0c;哪怕只是思维也行。下面探讨Python数据分析需要学习的知识范畴&#xff0c;结合自己的经历和理解&#xff0c;总结的学习大纲&#xff0c;有些章节带有解释&#xff0c;有些没有。当然&#xff0c;关于学习范畴&#xff0c;可能每个人…