海睿思分享 | 类chatgpt模型在信息抽取领域的应用

大语言模型(LLM,Large Language Model)是指能够处理海量数据、拥有百亿级参数的深度学习模型,它已成为⼈⼯智能领域中的新热点。2022 年 11 ⽉ 30 号 ChatGPT 发布,其卓越的性能表现给整个⾏业带来了巨⼤的冲击。⼈们不再排斥⼤模型的笨重难以部署,⽽纷纷惊叹其惊艳的表现。ChatGPT无疑引发了⼀轮新的对大语言模型的关注,也促使⼈们对大语言模型能力进行重新思考。

一、大语言模型的发展脉络

目前新的大语言模型绝⼤部分都是使⽤ GPT 所采⽤的 Autoregressive 模型,它本质上就是⼀个文字接龙或者自动补充模型,包括 Google 的 PaLM、LaMDA,还有开源的Facebook(Meta)的 OPT 以及 BigScience 的 BLOOM 等。随着技术的发展⼤模型也层出不穷,下图是我们收集的大模型(LLM)发展脉络:

⼆、开源类ChatGPT模型在信息抽取领域的实测对比

ChatGPT 这类大语言模型出色的表现得益于Instruction Tuning,即通过人工标注大量自然语⾔形式的指令和答案对来进⾏有监督的学习,其可以极大提升模型对用户意图的理解能⼒,同时也能提升模型应对全新任务的泛化能力。具体的ChatGPT 为代表的 LLM 的特点可以总结为如下⼏点:

(1)强⼤的自然语言理解能力(NLU),以 ChatGPT 代表的这类⼤语⾔模型语⾔理解能⼒⾮常强,它能精确的理解⽤户意图对于其中的细节意图也能精准把控,⽣成的回答语言也流畅。

(2)涌现能力( Emergent Abilities)这是随着模型规模不断增⼤到达某个临界点后,模型能⼒会完成从量变到质变的⻜跃,呈现出惊⼈的爆发式增⻓。⽐如 In-Context Learning,⽆需微调只需要输⼊合适的prompt便可以实现惊⼈的zero-shot或few-shot的能力。再如思维链(Chain of Thoughs)能⼒,即链式思维推理,其也是⼤模型能够拥有拟⼈化对话能⼒的关键。

(3)⽂本⽣成能力(Text Generation),以ChatGPT为代表的这类LLM拥有出色的文本生成能力,它能根据用户生成不同格式要求的回答。

鉴于大模型出色的能力,我们选取了⽬前开源的ChatGLM和MOSS⼤模型并结合我司业务场景进行了测试,具体效果如下:

(1)尝试从合同⽂本中抽取“付款阶段”,“付款条件”,“付款⽐例”,“付款⾦额”字段信息。

(2)从表格(表格转成HTML格式)中的“采购人”,“供应商”,“共同⾦额”,“合同期限”,“合同签署时间”字段信息。

经过以上两个场景的模型测试,我们发现ChatGLM的效果明显优于MOSS,ChatGLM能跟准确的理解⽤户意图并能给较为准确的答案。相⽐之下MOSS的160亿参数规模⼏乎是ChatGLM(62亿参数)的三倍但信息抽取任务上的效果却不及ChatGLM。这⾥的原因主要是ChatGLM训练的任务中本⾝就有与信息抽取相贴合场景,⽽MOSS更擅⻓数学计算和图片生成相关的任务。因此才出现参数规模更⼤MOSS 效果反⽽不及规模较小的ChatGLM的情况。

三、类ChatGPT模型在垂直领域落地的思考

以ChatGPT为代表的大模型之所以效果惊艳,是因为背后有大规模的算力和众多Instruction Tuning 专业标注作为⽀撑。其中 Instruction Tuning 标注需要大量领域内的专业人员参与才行,成本也非常高。对于 LLM 来说,除了大算力之外,高质量的数据也⾮常重要,这也是为什么往往只有⼤公司才能负担从头开始训练⼤模型的原因之⼀。对于没有大规模算力和众多领域内的专业人员做标注的团队,使用开源的百亿级大模型(LLM)做垂域微调或许是个不错的选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16128.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

拉伯证券|人心动了?刚刚,A股、港股大涨!

昨日A股传言较多,引发波动。上一年10月底11月初,也有类似情况。换个视点看,这说明人心开端动了,至于怎样个“思变”法,市场可能现已给出了答案! 今天上午,A股大涨,北向资金净流入110…

全球行情_全球股市中心

全球股市指数指数自动更新,报价单位均为当地货币,行情时间均为北京时间 圣保罗 布宜诺斯艾利斯 冰岛 斯德哥尔摩 赫尔辛基 奥斯陆 哥本哈根 莫斯科 布鲁塞尔 都柏林 阿姆斯。环球行情中心 13 136 088% 注行情统一显示为红跌绿涨。“指南针行情网”是北京…

反常识—股票暴跌收益会更高

反常识—股票暴跌收益会更高 这节课我们来学习一下股票。先来了解一下什么是股票? 股票是公司的所有权凭证。持有股票的人是公司的股东,拥有公司的一部分。可以说你持有一家公司的股票,你就是这家公司的老板。持有股票比例最多的人&#xf…

9 大指标分析 Solana 的熊市危机

Daniel, 2023 年 1 月 Solana 是一个去中心化的区块链网络,由 Solana 实验室设计并在2020年推出,具有快速、可扩展和安全的特点。 由于其快速的交易速度和低交易费用,Solana 在 2020 年和 2021 年获得了极大的关注,这使得它对去中…

九龙证券|美国散户疯狂抄底,嗅到了什么?华尔街最新警告

当地时间周五,美股三大指数低开后经历“过山车”行情,虽然盘中一度转涨,但午后再度回落。截至收盘,道指跌0.38%,报收33926.01点;纳指跌1.59%,收于12006.95点;标普500指数跌1.04%&…

九龙证券|一夜暴跌36%,美股走势分化,标普指数创近2月最差周度表现

当地时间2月10日,美股三大指数收盘涨跌纷歧。道指涨0.5%,标普500指数涨0.22%,纳指跌0.61%。 受国际油价明显上升影响,动力板块领涨,埃克森美孚、康菲石油涨超4%。大型科技股走低,特斯拉、英伟达跌约5%。热门…

表单验证:名称、电话号码、邮箱

表单验证:名称、手机号码、邮箱 文章目录 目录前言一、名称验证的正则表达式二、电话号码验证的正则表达式三、邮箱验证的正则表达式总结 前言 在大部分web项目中都离不开表单验证,这里就简单介绍几个常见的验证内容,后续慢慢更新 一、名称表…

【智能手表方案推荐】基于中科蓝讯BT8958B2 的 Smart Watch 方案介绍

目录 ►场景应用图 ►产品实体图 ►展示板照片 ►方案方块图 ►核心技术优势 ►方案规格 随着人们对于智能手表功能性需求的提高,智能手表的应用方向需要不仅能满足于日常生活中可替代手机为用户提供方便的场景,如蓝牙通话,还需要对人体…

智能手表UX开发的4条基本经验

为了提高您智能手表 UX开发的效率,请仔细考虑动画、响应性、便利性和严格测试。 随着智能手表持续主导可穿戴设备市场,记住以下这一点很重要:用户体验(UX)是否在硬件和软件栈之间同步优化。随着触觉和基于表冠的输入成…

基于BearPi套件开发的智能儿童手表系统

一、 介绍 本项目是基于BearPi套件开发的智能儿童手表系统,该系统通过与GSM模块(型号:SIM808)的通信来实现通话和定位功能。 智能儿童手表系统可以通过云和手机建立连接,同步时间和获取天气信息,通过手机…

独立版企微魔盒企业微信系统V7.5开源版 带安装教程

下载:D立版企微魔盒企业微信系统V7.5开源版带安装教程-小程序文档类资源-CSDN下载 更新日志: 1.部分功能适配新版企业微信第三方应用API; 2.解决企业微信第三方API调整后扫码显示企业未入驻,授权第三方企业id不正确的问题&#…

弹性魔盒应用

这是标准盒子的应用 弹性盒的应用 采用flex布局的元素一般叫做容器内的内容称为项目或者元素 水平方向的是主轴(main axis),垂直方向的是交叉轴(cross axis![在这里插入图片描述]() 容器属性:flex-flow、flex-direction、flex-wrap、justify-content、align-items、alig…

火线魔盒服务器不稳定,火线魔盒怎么使用?火线魔盒使用教程

您可能感兴趣的话题: 火线魔盒 核心提示:火线魔盒是大家非常喜欢的CF辅助工具,由于其功能强大,封号机率极小受到大家的喜爱,对于新手来说不知道如何使用火线魔盒,我们就来介绍一下火线魔盒使用方法。 火线魔…

战舰少女r魔盒服务器维护,战舰少女r魔盒官方

战舰少女R魔盒官方是一款军事化类型的战舰对战角色扮演手机游戏,玩家们将在这里体验到更过瘾更刺激的海战玩法,收集不同的战舰进行战斗,每个战舰都代表了不同的舰娘,满满的二次元感觉,为了新的荣誉,不断征服…

ChatGPT会砸了谷歌的饭碗吗?(附彩蛋)

按:本来早上准备好了文章《ChatGPT创始人自述成功的13个法宝》,但是微信公众号无法发表,所以只能发到刘教链的知识星球(链接:https://t.zsxq.com/0arpqby2N【链接】,或点击本文左下角“查看原文” &#xf…

GPT-4真的发布了,ChatGPT Plus用户可试用

GPT-4 真的发布了,GPT-4 真的发布了,该模型在多个方面都实现了飞跃式的提升,按官方的介绍是GPT-4 是 OpenAI 最先进的系统,可产生更安全、更有用的响应结果。 由于 GPT-4 具有更广泛的常识和解决问题的能力,所以它能更…

一周 AIGC 丨千人签名“AI 不扩散条约”,ChatGPT 正在大规模封号

ChatGPT 诞生之后带给人类的震撼还在继续,甚至有人评价它是硅基生命开启的标志。马斯克也认为,人类只是硅基生命的开启程序。也许未来有一天,正如《异星灾变》中的场景,人类被机器人接管。面对强人工智能的崛起,马斯克…

AI教父Hinton最新采访万字实录:ChatGPT和AI的过去现在与未来

杰弗里辛顿(Geoffrey Hinton)被公认是人工智能的教父,数十年前他就支持和推动了机器学习,随着像ChatGPT这样的聊天机器人引起广泛关注,CBS的主持人于2023年3月初在多伦多的Vector研究所采访了Hinton。 全长40分钟的采访…

飞浆AI studio人工智能课程学习(1)-大模型时代优质Prompt

文章目录 大模型时代&优质PromptAl生成技术价值概览开始构建你的优质prompt 近十年深度学习模型主要更迭为什么大模型能够有如此强大的表现力大模型与Prompt例1: 画一幅画,呆萌的小猫躺在大泡泡中例2:请生成一张统计图,内容为…

Day21【元宇宙的实践构想07】—— 元宇宙与人工智能

💃🏼 本人简介:男 👶🏼 年龄:18 🤞 作者:那就叫我亮亮叭 📕 专栏:元宇宙 0.0 写在前面 “元宇宙”在2021年成为时髦的概念。元宇宙到底是什么?元宇…