概述
STEM教育是一种整合科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)的教育方法。这种教育模式旨在通过跨学科的方式培养学生的创新能力、问题解决能力和批判性思维能力。
近年来,STEM 教育发展迅速。引领这一发展的是先进的信息技术,如人工智能(AI)和大规模语言建模(LLM)。这些技术正在推动教育领域新学习方式的创新。
大规模语言模型的使用尤其具有提高教育质量的潜力。与传统方法相比,大规模语言模型可以更容易地创建多项选择题、提供个性化反馈并支持许多其他与教育相关的任务。这些模型可以处理大量文本数据,帮助教育工作者生成符合预期学习效果的问题。因此,教育工作者可以节省创建评估的时间和精力,从而将更多精力放在教学设计和个性化教学上。此外,大规模语言模型还有助于生成解释、提供实时反馈和额外的学习资源。这些多样化的功能使大规模语言模型成为增强传统教学方法和满足不断发展的教育需求的重要工具。
在此背景下,OpenAI GPT 的出现是教育领域的一大进步。许多以前在技术上具有挑战性的新功能现在都可以实现,"学习伙伴 "等创新应用也应运而生。事实上,当 "考试效应 "被广泛认为是提高学习效率的一种方法时,利用这些技术来创建一个人工智能模拟练习环境,帮助学生准备口试,是一种非常有用的方法。
而在人工智能时代,这种口试作为一种评估方法正日益受到关注。这种方法提供了一种深入研究学生学习成果的手段,而这些成果是传统笔试无法衡量的。在当今瞬息万变的学术和职业环境中,批判性思维和对复杂概念的理解等技能至关重要。口试允许学生现场思考,测试他们表达高级知识的能力,例如解释算法的工作原理或系统设计。
这种形式的评估要求学生具备解决实际问题的能力和推理能力,而不仅仅是知识的记忆。学生需要展示出对复杂编程概念和算法的深刻理解,以及向他人解释这些概念和算法的能力,而不仅仅是记忆内容。
随着人工智能和自动化技术的发展,有效沟通的能力也变得越来越重要。口试可以让学生练习如何清晰地表达复杂的想法,这在需要向非专业人员解释技术概念的情况下非常有用。口试也是评估跨学科知识理解能力的好方法。计算机科学领域与数学、电子工程学和心理学有许多联系,口试有助于学生全面理解这些多学科知识。
这种考试方法的优势还在于通过可获取的信息和先进的人工智能工具降低了学术造假的风险。面对面的形式使得使用不诚实的手段或剽窃答案变得更加困难,并能更准确地评估学生的能力。对于有特殊学习障碍的学生来说,口试也是比笔试更合适的评估手段,让他们有机会更好地展示自己的理解和知识。虽然书面评估也有其重要地位,但口试被认为是衡量一系列能力的重要手段,在人工智能时代的教育中发挥着特别重要的作用。
本文利用口试的多方面优势,探讨了大规模语言模型如何准确模拟真实口试。它开发了一个基于大规模语言模型的原型,从设计、实施到效果评估,都是对高等教育中口试的复制。
通过这项研究,我们可以了解大规模语言模型在教育领域发挥的作用及其局限性,并启发我们思考教育领域的新可能性。
技术
本文开发了一个使用大规模语言模型(LLM)的原型,目的是复制 STEM 教育中的口试。本文介绍了开发过程。
该原型的要求基于教育工作者的经验。我们的目标是开发一种解决方案,以满足学生的特殊需求并增强他们的学习体验。这就需要个性化的难度设置,提供反馈,减轻教育工作者的负担,并使来自不同背景的所有学生都能进入教育环境。借鉴实际教育环境中的知识,原型旨在为学生和教育工作者带来明显的益处。
该系统如下图所示。系统分为前端和后端,前端使用 Typescript 和 VueJS 框架开发。后端则使用 Python 和 Flask 框架构建,负责服务器端处理以及与第三方 REST API 的通信。特别是,访问 OpenAI REST API 的方法与 OpenAI 官方文档一致。
它还为教育工作者和学生提供了直观的界面。为了方便用户使用该系统,我们花了很大精力设计了一个熟悉的界面,模仿通常的聊天格式。该界面包括聊天记录显示、文本输入框、发送按钮和可选的 "给予提示 "按钮。
原型使用 OpenAI 的 "Assistant API "输入用户信息并生成适当的回复。助理使用现有的语言模型,如 "GPT-3.5-Turbo "和 “GPT-4”。该助手能够为准备口试的学生提供定制的指导和反馈。
该助手会在指定的学科领域内提问,并根据学生的回答提供详细的、针对特定学科的反馈。它还能纠正错误信息,并对不清楚的回答提出补充问题。此外,它还能评估学生的知识水平,并根据要求使用大学评估标准提供成绩。
该原型的开发还包括使用手动添加的 PDF 文件的功能。这样,助教就可以了解特定教学单元的内容,并测试他们在虚构场景中应用知识的能力。
在实际测试阶段,参加作者所在大学校园举办的教育相关活动的教育工作者和学生对原型的有效性及其对学习体验的影响进行了评估。根据这些反馈意见,对原型进行了进一步改进,并将其部署在一个安全的托管环境中。有限的一批教育工作者和学生可以对其进行测试和评估。
实验结果
本文将结合实验结果,从教学、技术和用户反馈的角度,以及隐私和数据保护的角度,讨论该原型的可能性和挑战。
教学视角揭示了新助教如何充当可靠的合作伙伴,并在口试准备过程中发挥重要作用。助理通过对所有测试题目提出问题并提供准确答案,帮助学习者加深各方面的知识。它根据学员输入的语言,就特定主题进行提问和回答。它还会对不清楚的地方进行补充说明,并为口试提供具体建议。
本文重点关注计算机科学和商业信息系统领域。所使用的语言模型涵盖了广泛的主题,为教科书级别的定义提供了高质量的答案。这样,学生就可以通过与助手的互动和使用其他学习资源来加深自己的知识。
然而,模拟口试的准确性和可靠性在很大程度上取决于所用语言模型的能力。在对话过程中可能会出现事实错误和不正确的断言,如果没有人工检查,这些错误就不会被纠正。这一点需要在指导未来用户时明确告知。
从技术角度来看,我们发现该模型的反应行为可以根据特定的细分领域进行精确调整。通过提供适当的书面指导,助教可以在准备特定科目的考试时得到专门支持,同时利用他们的广泛能力。这种能力表明,助教可以在深入了解大学教学大纲所涉及的几乎所有主题的背景下,满足具体的需求。
我们还发现,将 PDF、DOCX、PPTX、TXT 和 CSV 等格式的文档导入助手可进一步增强其功能,并最大限度地减少实施工作。特别是,该助手现在能够处理更丰富的内容,克服了上下文窗口的限制,而这在以前版本的 ChatGPT 中是一个制约因素。这是一项重大改进,还允许用户直接上传内容。
但需要注意的是,生成一个响应可能需要长达五秒钟的时间,这可能会让现在的用户觉得等待时间更长。此外,指示助手以特定方式行事的能力允许在前端和后端定制响应,但也指出了以意想不到的方式使用模型的风险。这可能会导致训练数据被盗用或用于非预期目的等问题,解决这些问题被认为是未来的挑战。
从用户反馈的角度来看,被选中参加测试阶段的教育工作者和学生将亲身体验新开发的原型,并观察他们的反应。这是一个让教育工作者和学生体验真实测试环境并实时分享他们的反应的机会。
从教育工作者和学生的积极反馈来看,自动生成反馈的功能被认为减轻了教育工作者的工作量。所有参与者还对个性化反馈和模拟的互动性表示赞赏。特别是那些第一次使用聊天机器人的人表示,他们对答案的准确性感到惊讶。
不过,在整个测试阶段显然也需要改进。教育工作者呼吁进一步定制测试场景,并确保生成答案的准确性和可靠性。学生们也表达了对实时互动等功能的渴望,尤其是通过声控界面。
下一节将讨论隐私和数据保护观点在教育技术中的重要性。大规模语言模型的使用可以极大地改善知识的获取,但必须考虑到隐私和数据保护问题。正确实施这些措施对于确保知识产权的保护和个人数据的安全至关重要,同时还能提高系统的可靠性,增强其在教育和研究中的实用性。
在实际操作环境中,强大的身份验证和授权机制对于保护用户的身份和访问权限是绝对必要的。这些安全措施确保只有经过授权的用户才能使用系统,确保所交换信息的保密性,并确保系统的负载得到妥善管理。在开发教育技术的过程中坚持这些隐私和数据保护原则,对于教育技术的成功和可持续发展至关重要。
总结
本文开发了一个基于大规模语言模型的原型,模拟了高等教育中的口试,探索了大规模语言模型在教育环境中的潜力,展示了将人工智能引入教育的广泛可能性。尽管作为一项研究还处于早期阶段,但它为大规模语言模型在这一新应用领域的能力和局限性提供了重要见解,而最新版本的 OpenAI API 及其助手在为不同学生定制学习体验方面表现出色。
所开发的原型显示出巨大的潜力,尤其是在学龄初期提供知识评估和个性化反馈方面。这正是个性化教育需要针对每个学生的个人学习路径所产生的重要结果。用户的直接反馈表明,原型作为一种学习工具已被顺利接受。不过,原型目前所能提供的个性化深度和准确性显然还需要进一步改进。
它还表明,它有可能减轻教育工作者的负担,提高教育质量。它还表明,自动准备口试实际上可以帮助教育工作者,但要充分了解其对教育生态系统的影响,还需要进行更广泛的评估。
对专门用于高等教育课程知识评估的大规模语言模型的评估也显示出卓越的性能。在本科阶段,大规模语言模型显示出与高等教育标准相称的理解力和互动性。不过,还需要对更复杂的问题格式进行进一步研究。
本文提出的原型为通过大规模语言模型使科学、技术、工程和数学教育更容易获得提供了一种很有前途的方法。预计今后的研究和开发工作将进一步完善原型并扩大其适用范围。