ChatGPT大战司法考试，无需微调一类试题达到人类水平！医学化学公务员试题都能答...

ChatGPT大战司法考试，无需微调一类试题达到人类水平！医学化学公务员试题都能答...

news/2025/1/9 15:57:30/文章来源:https://blog.csdn.net/QbitAI/article/details/128556488

杨净明敏发自凹非寺
量子位 | 公众号 QbitAI

ChatGPT的下一个新身份——做题家！

这不，它已经在人类各个考试中开“卷”了。

律师、医生、注会什么的，它都开始纷纷展露身手。

比如，全球考生都头疼的司法考试，现在ChatGPT在两项试题达到了合格率，其中一项还跟人类水平持平。（还是在没有任何微调的基础上）

“成绩”一出，瞬间引发巨大关注，网友：Amazing~

还有人表示，要是让它来参加SAT或AP考试，应该会很有趣。

咳咳，要是公务员考试呢？

咱们结尾见分晓！

两项法考试题合格

具体就先来看看ChatGPT在司法考试中的表现如何。

美国大多数州统一的司法考试（UBE），有三个组成部分：选择题（多州律师考试，MBE）、作文（MEE）、情景表现（MPT）。

选择题部分，由来自8个类别的200道题组成，通常占整个律师考试分数的50%。

在这项研究中，研究人员对OpenAI的text-davinci-003模型（通常被称为GPT-3.5）在MBE的表现进行评估。

（ChatGPT正是GPT-3.5面向公众的聊天机器人版本。）

为了测试实际效果，研究人员购买了官方组织提供的标准考试准备材料，包括练习题和模拟考试。每个问题的正文都是自动提取的，其中有四个多选选项，并与答案分开存储，答案仅由每个问题的正确字母答案组成，也没有对正确和错误的答案进行解释。

随后，研究人员分别对GPT-3.5进行了提示工程、超参数优化以及微调的尝试。结果发现，超参数优化和提示工程对GPT-3.5的成绩表现有积极影响，而微调没有任何效果。

在提示工程中，他们共测试了7种提示类型。

1、只做单项选择；
2、单项选择和解释；
3、只做前两个选择；
4、前两个选择和解释；
5、前两个选择和重新提示；
6、对所有选择进行排序；
7、对前三个选择进行排序。

研究人员在上述的提示和参数值中执行了107次样本考试。结果在这些提示中，提示风格#7的前三个选项排序表现最好，他们共收集了41个样本，对这个提示进行参数组合。

超参数优化中，他们评估了包括温度系数、top p、best of、max tokens等参数。

最终在完整的MBE练习考试中达到了50.3%的平均正确率，大大超过了25%的基线猜测率，并且在证据和侵权行为两个类型都达到了平均通过率。尤其是证据类别，与人类水平持平，保持着63%的准确率。

在所有类别中，GPT平均落后于人类应试者约17%。在证据、侵权行为和民事诉讼的情况下，这一差距可以忽略不计或只有个位数。

但总的来说，这一结果都大大超出了研究人员的预期。

因为它对答案排序与正确性有很强的相关性，Top2和Top3的选择分别有71%和88%的正确率。其中“Top2”的准确率全都超过了极限，有五个类别均超过了人类平均水平。而“Top3”的准确度更高，在证据这一表现中甚至达到了98%。

这也证实了它对法律领域的一般理解，而非随机猜测。接下来他们将进一步对法考的其他两部分：作文和情景表现进行上述的研究。

ChatGPT能当考霸吗？

谷歌资深软件工程师肯尼斯·古德曼（Kenneth S. Goodman）就拿ChatGPT做了一系列测试，涉及司法、医学、会计学、化学等多个领域。

分数最高的一门是纽约州高中毕业英语语言艺术考试，ChatGPT正确率达到了91.6%。

因为是2022年8月的考试，所以ChatGPT数据库中肯定不包含考试内容。对于陌生的24道考题，它只错了2题。

物理/化学考试中，ChatGPT的表现也不错，正确率达到了77.7%，45道题目中答对了35道。

前不久，谷歌医疗大模型Med-PaLM通过美国医师执照试题（USMLE）验证。

ChatGPT也不甘于落后，同样挑战了USMLE的第一阶段基础医学考试。

去掉有图像的题目后（因无法输入对话框），ChatGPT正确率达70%。

其余则是在司法方面，工程师肯尼斯老哥让ChatGPT尝试了一些非正式题目。

比如美国律师职业道德考试（MPRE）的示例题目（共15道），ChatGPT答对了9道，正确率60%。

面对50道律师资格考试模拟试题，ChatGPT的正确率也维持在了70%，答对35道。

此外，在佛罗里达农工大学法学院的入学考试中，ChatGPT取得了149分，排名在前40%。其中阅读理解类题目表现最好。

表现最差的，还是数学题。

在CPA注会考试中，ChatGPT的正确率只有40%。肯尼斯老哥还在尝试一些调教方法，让它更聪明一些。

总之，ChatGPT在各种考试中的表现，还是让人有些意外。

有网友已经产生危机感了：

damn，我的工作要被抢了！

有人分析，如果直接让AI来插手司法相关的判断，风险真的很大，但如果后期有专人来审核它的输出结果，那么AI将能够很好提升律师的工作效率。

还有人表示，如果能保证任何数据都不泄露的话，那ChatGPT将能够推动更多行业平民化。

或许正如肯尼斯老哥说的那样，人类+电脑的组合已经超越了人类自身能力，这就是计算机当下正在进行的突破。

One More Thing

最后，我们也让ChatGPT试了试国内法考的题目~

先说结果，3道选择题，ChatGPT都没有答对……虽然解释得头头是道，但它应该确实没有读过我国的法条。

△参考答案D

（这答案罗翔老师看了直摇头）

△参考答案A

换成公务员行测试题呢？没想到ChatGPT的答案对了，可是过程和答案似乎完全没关系……

这……怎么感觉AI秒算结果，但随便编了个过程来糊弄人类啊

参考链接：
[1]https://twitter.com/_akhaliq/status/1609734525461975040
[2]https://github.com/mjbommar/gpt-takes-the-bar-exam
[3]https://arxiv.org/abs/2212.14402
[4]https://twitter.com/pythonprimes/status/1601664776194912256

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入交流群，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~

点这里👇关注我，记得标星哦～

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/24692.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

微信被爆出存在高危漏洞！(快扩散)

微信被爆出存在高危漏洞！(快扩散)

微信被国内某安全团队爆出，在PC版客户端中捕获到一个高危等级的在野0day漏洞。建议3.2.1.141版本以下的用户立即更新！ 此次被爆出的高危0day黑客只需要通过微信发送一个特制web链接，当用户点击链接后，微信PC(windows)版进程wechat…

阅读更多...

如何高效检测APK漏洞，腾讯安全这款神器了解一下

如何高效检测APK漏洞，腾讯安全这款神器了解一下

在刚刚过去的315晚会上，央视曝光了某些第三方开发的SDK包存在违规收集用户个人信息的情况，导致隐私泄露问题。对此，工信部已要求依法依规严厉查处涉事企业，并表示将采取常态化监管措施，加强移动互联网应用程序APP综合治…

阅读更多...

微信被爆出存在高危漏洞！(求扩散)

微信被爆出存在高危漏洞！(求扩散)

开发者（KaiFaX） 面向全栈工程师的开发者专注于前端、Java/Python/Go/PHP的技术社区转载自公众号【Java面试那些事儿】微信被国内某安全团队爆出，在PC版客户端中捕获到一个高危等级的在野0day漏洞。建议3.2.1.141版本以下的用户立即更新&am…

阅读更多...

用司马阅轻松搞定长文阅读难题，帮你提炼总结出重点！

用司马阅轻松搞定长文阅读难题，帮你提炼总结出重点！

将文档上传到司马阅的官网https://smartread.cc/，司马阅即可对文档内容进行分析与总结，即使是外文稿件，也会为你提供中文的要点提炼。例如我们想通过《提问的艺术 for CHATGPT》这本书获得prompt的技巧分享，可以将这本书的pdf文件…

阅读更多...

推荐一波有趣且实用的奥特曼表情包

推荐一波有趣且实用的奥特曼表情包

奥特曼00001-安排.jpg 奥特曼00002-咕叽咕叽啪啦啪啦.gif 奥特曼00003-校服校霸.jpg 奥特曼00004-摇滚奥特曼.gif 奥特曼00005-诸葛亮变色赛文.gif 奥特曼00006-奥特曼打工.gif 奥特曼00007-让老子看看你是什么类型的傻逼.jpg 奥特曼00008-质朴.jpg 奥特曼00009-溜了溜了.jpg 奥…

阅读更多...

奥特曼系列ol服务器维修,奥特曼系列OL分解系统玩法介绍

奥特曼系列ol服务器维修,奥特曼系列OL分解系统玩法介绍

奥特曼系列OL分解系统玩法介绍，当小伙伴往往无法直接获得最强卡牌进行升级，而是需要在不断的打怪和抽奖中更新自己的卡牌品质，从而让战斗力更上一层楼，下面跟着小编一起看看吧。奥特曼系列OL 金币紧俏，点滴战功在目前…

阅读更多...

奥特曼系列ol服务器名称带怪兽,《奥特曼系列ol》怪兽图鉴怪兽阵容

奥特曼系列ol服务器名称带怪兽,《奥特曼系列ol》怪兽图鉴怪兽阵容

《奥特曼系列ol》这款游戏中的怪兽图鉴也是很多玩家非常关注的问题之一哦，随着游戏的不断的更新，游戏也是加入了不少全新的玩法，一定让很多玩家觉得有些迷惑吧。下面小编为大家带来《奥特曼系列ol》怪兽图鉴以及怪兽阵容，希望大家…

阅读更多...

不要对chatgpt过度反思第一部分

不要对chatgpt过度反思第一部分

最近一段时间，chatgpt很热，随意翻一些文章或视频，一些非常整齐一致的怪论，时不时都会冒出来。为什么这种革命性创新又出现美国？ 为什么我国互联网只会电商，没有创新？ 为什么我们做不出来&…

阅读更多...

智能音箱语音交互系统简介与测试初探

智能音箱语音交互系统简介与测试初探

获取更多技术资料，请点击！ 随着AI技术的发展，智能语音交互技术也得到了巨大的发展和应用。由于语音是最自然的交互形态之一，有着输入效率高、门槛低、方便解放双手以及能有效进行情感交流的优势，使得智能音箱成为语音…

阅读更多...

ict的终极模式是软件研发

ict的终极模式是软件研发

什么是ICT呢？先别忙，首先我们来了解一下什么是IT和什么是CT。 IT：是Information Technology的缩写，中文意思是信息技术，是指在计算机技术的基础上开发建立的一种信息技术。我们日常工作和生活中经常接触到这个名词。最…

阅读更多...

烧钱数亿后，趣店罗敏的预制菜业务从兴到衰

烧钱数亿后，趣店罗敏的预制菜业务从兴到衰

雷递网雷建平 9月7日从高调杀入预制菜行业，到精简业务规模，趣店CEO罗敏的短短50天经历，浓缩了一个公司业务从兴到衰的全过程。昨日，趣店称，在评估了当前的市场状况后，公司决定精简其预制菜业务。随着预制…

阅读更多...

高校学生消费行为分析系统

高校学生消费行为分析系统

目录摘要 I ABSTRACT II 1 绪论 5 1.1选题背景及意义 5 1.2研究现状 5 1.2研究主要内容 5 2 系统相关技术介绍 7 2.1聚类算法 7 2.2 ECharts 7 2.3 Python 7 2.4 MySQL简介 8 3 系统分析 9 3.1 功能需求分析 9 3.2 业务流程分析 10 3.3 数据流图 14 3.4 数据库概念模型设计 …

阅读更多...

自动驾驶数据之争，走向合规

自动驾驶数据之争，走向合规

报道数字经济定义转型中国撰文 | 泰伯网编辑 | 鹿野 2015年12月，一辆百度无人车从京新高速到五环进行了最高时速达100公里的全自动行驶，将国内自动驾驶推向大众视野。当自动驾驶产业随时间沉淀驶入商业落地的下半场，百度对这场自动驾驶…

阅读更多...

Android Studio App开发中多线程的讲解与实现新闻轮播滚动实战（附源码超详细必看）

Android Studio App开发中多线程的讲解与实现新闻轮播滚动实战（附源码超详细必看）

运行有问题或需要源码请点赞关注收藏后评论区留言 ~~~ 一、分线程通过Handler操作界面为了使App运行的更加流畅，多线程技术被广泛应用于App开发，由于Android规定只有主线程才能直接操作界面，因此分线程若想修改界面就要另想办法&#xff0c…

阅读更多...

遇到老赖找催收公司靠谱吗？

遇到老赖找催收公司靠谱吗？

转自:http://wenzhang.zhaizhuanzhuan.cn/Detail.aspx?id62B3DBAE-B4E1-F634-F56B-8D8B5F7D2AE0 老赖与催收公司貌似是相互制衡的存在，一个敢“赖”，一个敢要。当这两种极端的个体碰到一起之后，他们真的会相互制衡吗？ 就拿身边的…

阅读更多...

Android App网络通信中通过runOnUiThread快速操纵界面以及利用线程池Executor调度异步任务实战（附源码简单易懂）

Android App网络通信中通过runOnUiThread快速操纵界面以及利用线程池Executor调度异步任务实战（附源码简单易懂）

运行有问题或需要源码请点赞关注收藏后评论区留言私信~~~ 一、通过runOnUiThread快速操纵界面因为Android规定分线程不能够直接操纵界面，所以它设计了处理程序工具，由处理程序负责在主线程和分线程之间传递数据，如果分线程想刷新界面&#…

阅读更多...

记一次基于模板方法的设计开发过程

记一次基于模板方法的设计开发过程

1、背景本人做抵押贷金融系统开发，最近在开发过程中，遇到一个新的需求，公司和原第三方支付公司有一定的矛盾，造成支付能力支持不足，公司内部进行的新支付系统的搭建，所以需要将原支付功能对接到新支付功能…

阅读更多...

2022 读书总结

2022 读书总结

2022 年主要阅读了文学类和理财类书籍，增加了几本杂项书籍，具体如下： 文史类 4 本《软技能 2-软件开发者职业生涯指南》- 约翰.森梅兹《三体：黑暗森林》-刘慈欣《三体：死神永生》-刘慈欣《浪潮之巅》- 吴军理财类 7 本…

阅读更多...

派森小镇（五）帮助

派森小镇（五）帮助

雾霭沉沉，水波澄碧。在一处悠远僻静的地方上有一个神奇的小镇，小镇的名字叫派森镇。小镇的前面有一条河，碧蓝的水映出小镇周围水墨画般朦胧的世界。小镇上的人一出生就拥有特殊的技能，他们中的每一个人都是python的成员&#xff…

阅读更多...

零基础 Amazon Web Services (AWS) 入门教程图文版（一）

零基础 Amazon Web Services (AWS) 入门教程图文版（一）

现在小站唯一的流量都靠AWS这个关键词了，刚好要用AWS重新建站，所以从头开始记录一遍吧。所谓零基础，就是你可以没有任何AWS使用经历，仍然能够按照教程操作下去。所谓图文版，就是建议手机用户在没有连Wifi的情况下尽量不要查看全文。图片一般都有大图，看不清的可以点击查…

阅读更多...

最新文章

推荐文章