国际中文教育大模型“桃李” 1.0发布

随着ChatGPT引起全社会的关注,及各类大语言模型(Large Language Model)争相亮相,通用域自然语言处理任务已获得巨大成功,引起了国际中文教育领域的普遍关注。国际中文教育人士纷纷展开了对大模型的探讨:大模型是否可以根据学习者的水平,提供合适的语言表达,或根据学习者的问题给出详细的解答,从而在一定程度上辅助甚至充当学习伙伴、语言教师?然而,目前通用领域的大模型在垂直领域的效果仍有限。为解决上述问题,我们全面推出适用于国际中文教育领域的大模型“桃李”(Taoli)1.0,以期成为大模型在国际中文教育领域应用的引玉之砖。

“桃李”(Taoli)

· “桃李”在通用中文基座模型上扩充了国际中文教育领域专有词表,使用了该领域专有数据集进行指令精调,增强了大模型在该领域多项任务上的理解能力。

· “桃李”可以根据学习者的情况作出反馈,帮助学生模拟真实的语言交际场景。例如,与汉语水平等级为三级的学生对话时,能够控制其使用的语言尽量不超过三级的难度。

· “桃李”具有文本纠错功能,能够分别进行最小改动纠错与流利提升纠错,并能深入分析错误原因;具有作文评分功能,能够自动对作文水平进行评判,帮助学生自主学习。

· “桃李”能够方便国际中文教师整合教学资料,提供教学思路,提升教学质量。例如辅助生成教学过程中需要做的教案、幻灯片中需要展示的例句、课堂需要给学生提供的课外素材等。

“桃李”(Taoli)大模型: https://github.com/blcuicall/taoli

训练数据

我们基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库。我们设置了多种形式的指令来充分利用知识,构造了共计 88000 条的高质量国际中文教育问答数据集,数据示例如下:

"instruction": "修改句子的表达方式,使其更流畅、自然。",

"input": "我去中国的时候,我希望我要认识很多中国人。",

"output": "我去中国后,希望可以认识很多中国人。"

模型效果对比

1.考试能力

我们从教师与学习者两个方面出发,分别对几个模型在国际汉语教师资格证考试与汉语水平考试(HSK)上的表现进行了测评。其中HSK考试采用2018年官方出版的考试真题,从一级到六级各选择一套。国际汉语教师资格证考试采用2021年出版的官方真题。试题以客观题为主,主观题不参与计分。

以HSK4-6级为例:

试题(客观题)

Taoli 1.0

GPT-4

HSK4

55

78

HSK5

60

85

HSK6

42

76

2.样例展示

输入
Taoli 1.0‍
请遵循最小改动原则纠正下面这句话:北京与西安有很多好象一样的地方。北京和西安有很多类似的地方。
请生成词语在当前上下文中的释义。
词语:折服
上下文:我深深地被他的奉献精神所折服。
被说服或被感动。
请使用下列所有词语,写一个30字左右的段落。
词语:元旦、放松、礼物、表演
元旦是一年中最重要的节日之一,人们会庆祝并享受放松的时间。在节日中,人们会收到礼物,表演,并享受各种活动。

合作单位

本项目由北京语言大学、清华大学、东北大学、北京交通大学合作完成。

总结与展望

通过对中文基座模型的指令微调,我们推出了国际中文教育大模型“桃李”(Taoli)1.0

“桃李”有助于提供个性化、智能化的汉语学习指导,有助于推动国际中文教育领域的智能化发展。在未来,我们将继续拓展其在语言教育领域的应用范围,为更多学习者带来智能化的教育场景体验。

多种高阶版本的“桃李”教育大模型正在研发中,敬请期待!

编辑:孔存良、朱君辉、常鸿翔

308615d7e055b02824739fc6abe86dfa.png


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13390.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型评测,也太难了吧

来自:包包算法笔记 进NLP群—>加入大模型与NLP交流群 大模型的评测应该怎么弄? 之前在Baichuan 7B的时候,有个哥们在github发布了一个issue,说这个模型有C-eval测试集泄漏的问题,具体证据为: 当然&#…

“南瓜书”:经典“西瓜书”学习伴侣,第2版来了!

公众号【机器学习与AI生成创作】后台回复:168。可参与免费寄送图书活动,活动截止日期为 2023-06-24 晚上10点 。 公众号后台回复:168(建议选中复制) 也可自行购买,戳如下,享受专属5折&#xff0…

经典“西瓜书”的学习伴侣“南瓜书”第2版重装上市!

2020年,Datawhale开源项目“南瓜书”发布,受到全网转发。3年后,“南瓜书”完整版第2版完结撒花,重磅出版。 南瓜书是经典“西瓜书”《机器学习》公式完全解析指南,第1版受到了读者的一致好评,并得到了俞勇、…

数据标注工:训练AI,被AI替代

图片来源:由无界AI生成 作者|马慧 前景和覆灭同时存在,数据标注从业者代延从未如此矛盾。 30岁的内蒙古人代延在今年初创业,组建了一个近30人的线上标注团队。此前代延曾在数据标注的众包平台做了两年。可以称为是“熟工”的他&am…

开源中文大语言模型集合【2023-06-19】

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。 自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处…

文末送书 | 经典“西瓜书”的学习伴侣“南瓜书”第2版重装上市!

2020年,Datawhale开源项目“南瓜书”发布,受到全网转发。3年后,“南瓜书”完整版第2版完结撒花,重磅出版。 南瓜书是经典“西瓜书”《机器学习》公式完全解析指南,第1版受到了读者的一致好评,并得到了俞勇、…

【AI人工智能】LLM 开源中文大语言模型集合

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。 目录 1. Model 2. Application 3. Dataset 4. Evaluation 5. Tutorial 6. Related Repository 自ChatGPT为代表的大语言模型(Large

程序员改变世界,从未如此直观

万万没想到,包博士的代码让一个六岁的小学生哇哇大哭。 这个让小学生流眼泪的“科学家代表”有非常漂亮的履历:清华大学毕业、博士曾在斯坦福就读,他现在是VIPKID的首席AI科学家,带领四十多人的产品研发团队负责公司的AI技术。 …

chatgpt赋能python:用Python下载MP3的方法

用Python下载MP3的方法 如果你想从互联网上下载MP3,那么你可以使用Python来实现这个任务。在本文中,我们将介绍如何用Python编写程序来下载MP3,同时还将分享一些有用的工具和资源。 Python中使用的库 要下载MP3,你需要使用Pyth…

火爆的ChatGPT快速学成,要看哪些书?

以前我们经常打趣说:***,你out了!当然了,玩笑成分居多。 但是如果作为一名技术人员,现在还没有听说过ChatGPT,那么你可能真的“out”了。 比尔盖茨说,ChatGPT的重要性堪比互联网的发明&#xff…

关于Chatgpt的所思所悟

关于最近看到的各种有关chatgpt的热火朝天的讨论、以及自己的所思所悟。我也有一些关于chatgpt的看法,随便写写。 1、chatgpt 是类似于一种模电转数电的进步。 模电转数电是指我们自然届的一些连续信号被采样后可以作为计算机等机器可以处理的离散值。说起来有点玄乎…

关于ChatGPT,汉硕人你需要了解这些。

近期,ChatGPT火爆全网,各个领域都展开了关于它的讨论,它的覆盖范围也是相当广泛:上到模拟去世的人的性格让人的心灵得到慰藉,下到算命塔罗人格测试类型。可谓是学贯中西,古今中外概莫能外。 图源clement日记…

用ChatGPT编写python脚本批量下载教辅书音频文件

0. 需求 周末给孩子买了一本教辅书,书上有配套的音频文件,可以通过微信扫描播放,但是平时孩子在家没有手机,怎么办呢?家中领导要求把它下载下了,放到蓝牙音箱上,那么说干就干。 1. 页面分析 音…

被“AI”坑了2800万

1984年,两个20出头的年轻人从相隔上千公里的两所院校分别毕业。其中一个是浙江大学数学系的史玉柱,另一个则是中央党校史上最年轻的研究生冯仑。在那个年代,他们最好的选择是接受分配,前者走进安徽省统计局,后者则留校…

Meta缺席大模型战局之因:嫌GPU太贵,用CPU代替

ChatGPT 引发了科技巨头之间的竞争,纷纷发布生成式 AI 产品。在本次大模型战场中,Meta 缺席了。 很难想象,Meta 此次落后于竞争对手是因为没有应用 GPU。据说Meta 把钱 All In 元宇宙了,现在用的是市面上最普通的 CPU 参加生成式 …

智能座舱,一场正在发生的交互革命

萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 当下,智能汽车已经成为城市脉络中的“数字节点”。 庞大的环境感知能力,快速穿梭城市的移动属性…… 相比于手机,汽车这个家和单位之外的“第三空间”,可以带给人们更多的想象&…

树莓派-14-打造智能音箱

用"树莓派"打造一款智能音响 智能音箱,是一个音箱升级的产物,是家庭消费者用语音进行上网的一个工具,比如点播歌曲、播报新闻、或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温…

利用树莓派制作智能音箱

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、语音识别二、语音合成1.引入库2.注册百度云账号,获取AppID和APIKey3.配置必要的信息(语音交互)4.合成请求token的url、获…

ChatGPT:关于WebRTC的未来,你怎么看?

了解音视频技术大会更多信息 编者按:ChatGPT可能在几天内成为某个领域的专家,不信?看看他对WebRTC的解读。感谢刘连响对本文的审校。 原文链接:https://webrtc.ventures/2023/01/the-future-of-webrtc-according-to-chatgpt/ 作者…

当 MQTT 遇上 ChatGPT:探索可自然交互的物联网智能应用

本文作者 Shifan Yu:EMQX 前端研发总监,负责 EMQX 的前端开发工作,同时也是 MQTTX 的开发者和维护者。 前言 随着物联网技术的迅猛发展,人与设备、设备与设备之间的互动已变得不再困难,而如何更加自然、高效、智能地实…