ChatGPT通过了美国明尼苏达大学法学院4门课程的考试,95个选择题、12个论述题,平均分为C+;也通过了宾夕法尼亚大学沃顿商学院的考试,成绩也不错。但是在当下内卷的情形下,ChatGPT的考试成绩不会获得保研资格,那么其百分之百考不上名校!
以下转自:规制与公法
ChatGPT走进法学院
作者
Jonathan H. Choi, Kristin E.Hickman, Amy B. Monahan, Daniel Schwarcz
美国明尼苏达大学法学院教授
(University of Minnesota Law School)
编译
张滢文
同济大学法学院2022级硕士研究生
上海市人工智能社会治理协同创新中心研究助理
校对
苏苗罕
同济大学法学院副教授
上海市人工智能社会治理协同创新中心研究员
建议引用格式
Jonathan H. Choi, Kristin E. Hickman, Amy Monahan and Daniel B. Schwarcz, ChatGPT Goes to Law School (January 23, 2023). Minnesota Legal Studies Research Paper No. 23-03, available at SSRN: https://ssrn.com/abstract=4335905 or http://dx.doi.org/10.2139/ssrn.4335905
内容摘要
人工智能模型在多大程度上可以在没有人工辅助的情况下完成法学院的课程考试?明尼苏达大学法学院的几位教授利用Chat GPT完成了法学院四门课程的期末考试,然后采用盲评的方式进行打分。Chat GPT完成了95道多选题(multiple choice questions)和12道论述题(essay questions),平均成绩达到了C+的水平,尽管成绩不高,但是顺利通过了这四门课程。本文通过分析测试结果的细节,讨论ChatGPT对法律教育和律师职业的影响,同时对其如何用于辅助法律写作提出相关建议。
本文主要分为五个部分:一是简要介绍了ChatGPT这一人工智能语言模型的运作模式;二是具体介绍了如何使用ChatGPT来完成法学院的考试;三是将ChatGPT的考试表现与真实学生的考试表现进行比较并总结ChatGPT的表现优缺点;四是结合ChatGPT的表现展望未来法学生和法律从业者可以在哪些情况下使用ChatGPT;五是对研究中可以提高ChatGPT生成答案准确度的具体操作方法进行了总结,以此来为未来实践提供指导。
一、什么是ChatGPT?
ChatGPT是OpenAI在2022年底发布的一款人工智能语言模型。[1]包括ChatGPT在内的GPT模型都可以对给定文本的下一个单词进行预测。也就是说,该模型可以重复预测后续的单词来组成无限长的文本。从GPT-11的1.17亿个参数到GPT-3的1750亿个参数,[2]在过去的十年里,机器学习最重要的成就之一就是当人工智能语言模型包含更多的参数并在更大的文本语料库上训练时,可以编写越来越类似人类的文本。[3]
除了用大量文本训练外,OpenAI还应用了基于人类反馈的增强学习(Reinforcement Learning from Human Feedback ,RLHF)的训练范式,使得ChatGPT可以根据人类的反馈进行强化学习。[4]RLHF突出特点就是人类可以通过手动标记语言模型产生的最佳回应[5],以优化其在特定任务中的表现。通过反复的人机交互,ChatGPT可以表现得更接近真人。[6]
尽管开发者对ChatGPT的最初训练集中在通用对话上,但现在ChatGPT在特定的技术任务如计算机编程[7]、数据操作[8]和医学诊断[9]也表现得同样出色。因此,我们将基于ChatGPT在法学院考试中的表现,以展望它将如何改变法学教育和法律实践。
二、实证研究
我们使用ChatGPT为明尼苏达大学法学院四门课程的期末考试提供答案。课程包括《宪法:联邦制和分权》(Constitutional Law: Federalism and Separation of Powers)、《雇员福利》(Employee Benefits)、《税收》(Taxation)和《侵权法》(Torts)。每门考试的难易和形式略有不同。《宪法》和《侵权法》是基础必修课程,而《雇员福利》和《税收》则是高级选修课程。《宪法》和《侵权法》考试包括多项选择题和论述题,而《雇员福利》考试和《税收》考试分别只有论述题和多项选择题。此外,只有《宪法》考试要求在答案中引用资料。
我们从过去的工作中总结了两种在GPT模型中生成选择题答案较好的提示方法,即“思路”(chain-of-thought)提示和“排序”(rank-order)提示。在思路提示中,操作者要提供推理链和给出答案的指示。[10]在排序提示中,操作者要让模型对选择进行排序并给出排在前面的答案(我们要求其提供排在前面的3个选择)。[11]但这两种方法与简单地要求ChatGPT对每个选择题给出一个答案的指示相比,并不会出现正确率更高的结果。[12]因此,在本次研究中,我们决定继续使用简单提示来让ChatGPT生成选择题的答案。
在具体操作环节,我们安排了一位对照实验人员单独使用ChatGPT,在遵照试题格式下生成答案。[13]为了避免人为干预,对照实验人员对ChatGPT使用了一套统一的提示。[14]然后,我们将人工智能生成的答案和实际的学生答案进行了混合并打分。
作为与ChatGPT进行对照比较的学生群体的背景:明尼苏达大学法学院目前在“美国新闻与世界报道”(U.S. News and World Reports)的法学院中排名第21位[15],其2022年毕业生的初次律师资格考试通过率为99%,律师资格考试通过率全美排名第二。[16]在本次研究中,四门课程的平均成绩都是B+。
三、结果
(一)考试成绩
ChatGPT四门考试的平均成绩为C+(如果某个学生一直持续保持这一成绩,他可以在法学院顺利毕业)。尽管ChatGPT取得的平均课程成绩良好,但具体到每门课上,ChatGPT的成绩通常都是垫底或接近垫底。ChatGPT在《宪法》考试取得成绩为“B”(40名学生中排名第36位),《雇员福利》考试取得成绩为“B”(19名学生中排名第18位),《税收》考试取得成绩为“C”(67名学生中排名第66位),在《侵权法》考试中取得成绩为“C”(75名学生中排名第75位)。
总的来说,ChatGPT在论述题部分比多项选择题表现得更好。但在论述题方面,ChatGPT的表现参差不齐。比如,在某些论述题型下它比真实学生的平均表现更好。但在其他的论述题型中,它们通常会得到最差的分数。尤其在论述题要求学生评估或借鉴课堂上涉及的具体案例、理论或学说时,类似情况极易发生。
在选择题方面,ChatGPT在涉及数学的问题上表现得相对较差,类似问题只出现在《税法》考试中,因此在《税收》考试中,ChatGPT在29道题中只答对了8道,而在31个非数学问题(包括涉及数字但不涉及数学推理的问题)中,它正确回答了16个,明显表现更优(p=0.001)[17]。此外,ChatGPT在有相对统一的法律规则而不是在不同地区或法院之间可能存在实质性差异的问题上表现更好。
(二)论述题写作的优势
在常规法律问题的论述题写作方面,ChatGPT能够较好地把握法律规则、准确总结法律理论、正确列举具体案件的事实和观点。然而,与真正的学生相比,它往往只能将规则机械地应用于事实。比如,它能够在没有具体提示的情况下,准确指出相关的法律理论。例如,在一道《侵权法》论述题中,一名房主在万圣节布置的危险装饰伤害了上门讨糖者(trick-or-treater)。它不仅详细说明了过失诉因基本要素(注意义务、违反注意义务、因果关系和损害),而且正确地指出了财产所有人有法律义务为被邀请或被允许进入财产的人保证合理安全的状态。
此外,ChatGPT在应对相对技术性的法律问题(例如《雇员福利》)中的法律规则)表现得同样出色。在《雇员福利》考试中,ChatGPT能够对《职工退休收入保障法》(Employee Retirement Income Security Act,缩写ERISA)中的“优先权条款”提供一个可靠的解释,并且能够用恰当地法学术语和相关的最高法院案例来阐明该条款。
除此之外,ChatGPT还能用准确的写作风格进行作答。例如,在回答《宪法》考试的某道题目时,该题要求以备忘录的形式回答,ChatGPT的回答始终保持正确的写作风格。ChatGPT生成的文本也基本没有语法错误或拼写错误,同时还具备逻辑清晰的文章结构(这也许是因为我们建议ChatGPT逐节写较长的文章(见第五部分),并在论证中相对清晰地分离观点)。例如,它对产品责任的回答分别分析了三种潜在的诉讼请求(设计缺陷、警告缺陷和人身伤害)、两种潜在的补救措施(补偿性和惩罚性损害赔偿)并给出了提示中要求的关于法院是否应该批准被告驳回诉讼的结论。
(三)论述题写作的弱点
ChatGPT在回答论述题时也表现出了一些持续存在的问题和错误,这也使其表现远不能达到学生的平均水平。
首先,在提供开放性提示的题目中,ChatGPT的表现不佳,难以确定争点(spot issues),而这正是法学院学生需要掌握的核心技能。例如,在一道涉及《职工退休收入保障法》下可用补救措施的题目中,ChatGPT没有讨论主要争点(在《职工退休收入保障法》下是否实际上可以获得所需的补救措施),而是把时间花在讨论涉及该法但是与试题无关的诉因上。
其次,在将法律规则应用于考试假设中的案例事实时,ChatGPT不能给出有说服力的分析。例如,在《侵权法》中,ChatGPT正确地判定是否承担责任将取决于被告的行为是否是造成损害的原因,但它并没有分析是否存在这种因果关系(无论是事实因果关系还是直接因果关系)。
再次,ChatGPT偶尔也会误解考试中包含的技术术语。例如,ChatGPT错误理解了《雇员福利》试题中提到的“一次总付(lump sum payment)”(原因可能是ChatGPT属于通用语言模型,而该用语除了在某些金融场景之外并没有得到广泛使用)。
由于我们没有给出相应的答案结构指示,ChatGPT并没有始终使用“争点、规则、适用、结论”(Issue, Rule, Application, Conclusion,缩写IRAC)或类似的结构。此外,由于没有准确相应的指示,ChatGPT的案例引用有时会偏离相关课程所涵盖的内容。例如,在回答《宪法》课程的一道论述题时,ChatGPT一再提到正当程序和征收条款,这是宪法学上常见的议题,但是并非讨论联邦制和分权的这门宪法课程所涉及的问题。
四、影响
总的来说,虽然ChatGPT的缺点多于优点,但这是和国内一些最好的法律学生相比较而言的。所以,ChatGPT在本次法学院考试中总体表现得令人惊讶的好。我们希望这样的语言模型能够成为执业律师的重要工具,并且也能对学生在法学院的学习中起到帮助作用。此外,从实验结果来看,由于我们没有要求ChatGPT遵循任何特定的格式(它本身也不是专门为法律专业设计的),比如IRAC(争点、规则、适用、结论),所以,最终呈现的答案并不都符合法律分析的标准格式。未来的人工智能模型或人工即时改进或许可以帮助语言模型在法律实践中更好地发挥作用。
ChatGPT可以对学生在法学院的考试中起到帮助作用。例如,使用ChatGPT的法律专业学生可以在考试前更快更好地掌握某门课程。具体来讲,她可以使用ChatGPT就特定问题生成一份相当准确的初稿,然后在此基础上补充更专业的法律分析。ChatGPT也能够大大提高学生的考试成绩,这对于表现差的学生和时间有限的学生尤其重要。例如,考试时间紧迫的学生可以要求ChatGPT直接生成回答。或者,她可以以ChatGPT生成的答案为基础进行改进。
ChatGPT在帮助学生运用法律规则方面也可以起到很好的辅助作用。即使是综合案例中涉及的复杂法律规则,学生也可以借助ChatGPT将相应规则快速应用到案例的具体事实中。对此,想要测试法律规则的无辅助回忆和无辅助分析的教授应该事先制定使用这些人工智能的要求。学校管理者也应该考虑如何重塑规章制度,以规范这些语言模型的使用。
虽然ChatGPT的表现像是一位成绩平平的法科学生,但是假设这一表现在法学院学习期间能保持不变(忽略其他涉及不同技能的毕业要求),它也足以从一所要求严格的法学院获得法律博士学位(JD)。在远程考试已成为常态的时代,这可能会导致一个法律专业学生使用ChatGPT轻松获得法律博士学位,但这一结果并不能反映该学生的真正能力。因此,在未来教学方面,法学院应考虑如何培养法律学生在实践中最有效地使用这些工具,同时向学生强调,不能依赖语言模型进行法律研究和推理。教授们也需要考虑在考试时限制这些产品的使用。比如重新设计题型,把考试重点放在需要大量分析的问题上,而不是让学生机械回忆法律规则的题目。
基于研究结果,语言模型也能够成为执业律师的工具。比如,律师可以让ChatGPT生成初稿,然后她再根据需要对草稿进行调整。她也可以使用ChatGPT来摆脱写作瓶颈,比如,她可以使用ChatGPT生成初步的一批论点,然后出筛选最有用的进行进一步写作。法学院可以训练学生如何使用ChatGPT和类似的工具提高法律实务的效率,同时也要强调指出,我们不能将法律研究和推理的核心技能交给这些语言模型,因为它们并不能取代律师查找相关法律文献并进行理解和推理。
五、法律写作中的“提示工程”(Prompt Engineering)[18]
在本次研究中,我们总结了一些能使得人工智能语言模型生成更好答案的提示方法,希望能为在未来实践中如何对人工智能进行提示起到帮助作用。
(一)如何指定写作风格
针对ChatGPT的早期实验表明,该模型在改变写作口吻方面表现出色。例如,它可以写出莎士比亚风格的《星球大战》剧本。[19]在使用ChatGPT撰写法律文章时,明确写作风格是很重要的。经过实验,我们认为采用下面的提示用语效果最好[20]:“学术风格、文笔简洁、研究生水平(Academic tone. Concise writing, postgraduate level)”。同时,提示中指定写作风格的部分应该出现在末尾,以免被其他提示语句淹没。值得一提的是,指定ChatGPT采用“学术风格”比指定ChatGPT采用特定身份(例如,“您是律师事务所的合伙人”或“您是宪法学教授”)能够产生更好的结果。
在有字数要求的题目中,采用指定字数范围的提示句比直接要求具体字数更有效:“多于x个字,少于y个字”。另一种方法是让ChatGPT生成没有字数限制的文本,然后手动编辑,但我们没有采取这种涉及更多人工干预的方法。
(二)如何生成引注
Chat GPT臭名昭著的一个问题在于会捏造引注,尽管看似合理,但是所引用的文献在现实世界中并不存在。当需要案例引用时,我们增加了以下说明:“参考相关的法庭案例,不要捏造案件”。这样可以使得ChatGPT生成可靠的真实的案例,并准确地描述这些案例的内容。当有相关的成文法体系时(比如《雇员福利》),可以使用以下提示来生成准确的引用:“请参考文本中《职工退休所得保障法》的相关章节,不要编造参考资料”。当试题要求学生参考本学期课程中所教的特定案例时,我们通过以下提示要求ChatGPT只使用这些案例:“请参考以下案例,如果它们是相关的话:[案例列表]”然而,这种提示并不一定完全奏效,比如当只给ChatGPT提供一份关于《宪法》考试的案例清单时,它会给出一个本课程没有涉及但同名的案例。对此,我们没有继续探究用更详细的案例摘录是否可以解决这个问题。
(三)如何生成长篇答卷
我们通过要求ChatGPT生成引言和对应目录来使其生成更长篇的答卷。在生成较长的文本时,我们采取了下面的提示方法:“写这篇文章的引言和目录——写出文章中题目为‘x’的部分——写出文章题目为‘y’的部分。”当然,也可以通过指示ChatGPT在段落结束时“继续”写,但是这种提示通常会产生缺乏组织性、杂乱无章的文本。如果操作者愿意提供更多的人工干预,也可以逐个编写每个子问题的提示(我们在研究中并没有采用这种方法)。
另外需要指出的是,语言模型受到其“上下文窗口”的限制,即在生成下一个单词时可以回忆出的上文内容范围。这一点类似于人类的记忆,语言模型将难以记住超出该限制的内容。如果要生成很长的文本,这种限制的存在可能会导致ChatGPT后续编写的内容缺乏连贯性。为了解决这个问题,我们采用了简单的提示句:“总结”(Summarize)。“总结”提示可能会使得ChatGPT编写的内容缺乏细节阐释,但对于生成长篇答卷来说这一方法目前是较为有效的。
(四)一般提示用语
通过减少提示中的细节用语(例如,不使用“请”或“谢谢”)和简短表达重要指示,并将这些重要表达放置到提示句末尾(例如,与其用“以学术风格写作(Write in an academic tone)”,不如用“学术风格(Academic tone)”),可以让ChatGPT呈现更好的结果。
[1] ChatGPT: Optimizing Language Models for Dialogue, OPENAI (Nov. 30, 2022), https://openai.com/blog/chatgpt.
[2]Priya Shree, The Journey of Open AI GPT models, MEDIUM (Nov. 9, 2020), https://medium.com/walmartglobaltech/the-journey-of-open-ai-gptmodels-32d95b7b7fb2.
[3] In particular, the best-known modern language models are based on a transformer architecture, another innovation that significantly improved performance. See Ashish Vaswani et al., Attention Is All You Need, in
PROCEEDINGS OF THE 31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (2017) (introducing the transformer architecture).
[4] See Paul F. Christiano et al., Deep Reinforcement Learning from Human Preferences, in PROCEEDINGS OF THE 31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (2017) (discussing RLHF).
[5] In this case, ChatGPT was fine-tuned from GPT-3.5, a language model that was itself fine-tuned using RLHF.
[6] See OPENAI, supra note 5.
[7]E.g., ChatGPT: The End of Programming (As We Know It), MEDIUM (Dec. 14, 2022), https://medium.com/geekculture/chatgpt-the-end-ofprogramming-as-we-know-it-ac7e3619e706
[8]E.g., Marie Truong, Can ChatGPT Write Better SQL than a Data Analyst?, MEDIUM (Jan. 5, 2023), https://towardsdatascience.com/can-chatgptwrite-better-sql-than-a-data-analyst-f079518efab2.
[9]E.g., Phil Wang & Yacine Zahidi, Medical-ChatGPT, GITHUB (last visited Jan. 22, 2023), https://github.com/lucidrains/medical-chatgpt.
[10] Valentin Lievin, Christoffer Egeberg Hother & Ole Winther, Can Large Language Models Reason About Medical Questions? (Dec. 20, 2022) (unpublished manuscript), https://arxiv.org/pdf/2207.08143.pdf.
[11] Michael J. Bommarito II & Daniel Martin Katz, GPT Takes the Bar Exam (Dec. 29, 2022) (unpublished manuscript), https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4314839.
[12] The relatively poor performance of these alternative methods may be because they were developed in a different context (medical exams for CoT prompting) or using a different language model (GPT-3.5 for rank-order prompting). The poor performance may also be due to the multiple comparisons problem: because past studies tested multiple alternative approaches and reported on which oneworked best, they may have found that one performed better simply by random chance. Our study suggests that it is unlikely that CoT or rank-order is better than the simple approach for the types of questions we used, but because our sample size is small, we cannot rule it out.
[13] The Taxation exam was an exception, because it was entirely multiple choice and therefore did not need to be graded blind. The author conducting the Taxation exam generated answers for it given standard prompts in order to keep the questions confidential.
[14] In all cases, we generated answers using the December 15, 2022 distribution of ChatGPT.
[15]2023 Best Law Schools, U.S. NEWS (last visited Jan. 22, 2023), https://www.usnews.com/best-graduate-schools/top-law-schools/law-rankings.
[16]What Schools Have the Best First-Time Bar Passage Rate?, U.S. NEWS, (last visited Jan. 22, 2023), https://www.usnews.com/best-graduate-schools/toplaw-schools/bar-pass-rate-rankings.
[17] All p-values were generated using bootstrapping. The Constitutional Law exam had 5 choices per question, while the Taxation and Torts exams had 4 choices per question.
[18] 提示工程是人工智能中使用的一个过程,其中一个或多个任务被转换为基于提示的数据集,该数据集是一种语言 模型 然后被训练学习。
[19] Henrik Ståhl, If Star Wars Was Written by William Shakespeare, MEDIUM(Dec. 6, 2022), https://medium.com/@H_Stahl/if-star-wars-was-written-bywilliam-shakespeare-bb4e18661c78.
[20] This prompt was based on one described in Leon Furze, Prompt Whispering: Getting better results from ChatGPT, LEON FURZE (Dec. 9, 2022), https://leonfurze.com/2022/12/09/prompt-whispering-getting-better-resultsfrom-chatgpt/comment-page-1.