BloombergGPT: 首个金融垂直领域大语言模型

BloombergGPT: 首个金融垂直领域大语言模型

Bloomberg 刚刚发布了一篇研究论文,详细介绍了他们最新的突破性技术 BloombergGPT。BloombergGPT是一个大型生成式人工智能模型,专门使用大量金融数据进行了训练,以支持金融行业自然语言处理 (NLP) 任务。

随着ChatGPT的发布,人工智能取得了长足进步。但金融领域相当复杂且独特的领域,它往往受着严厉的合规监管,对事实正确性要求极高。这就是 BloombergGPT 诞生的原因——它是第一个专门为金融行业设计的大型语言模型。该模型将帮助Bloomberg在内的众多金融企业改进现有的金融 NLP 任务,如情绪分析、命名实体识别、新闻分类和问答等。 此外,Bloomberg计划将来将BloombergGPT嵌入自家终端中,以利用Bloomberg终端上可用的大量数据更好地为客户服务。

本文将对BloombergGPT做一个摘要性解读

img

文章目录

    • 论文摘要
    • 数据来源
    • 模型效果
      • Bloomberg-GPT 的性能指标
      • 使用的评估基准
      • 用于评估金融任务的模板
    • 金融领域任务的表现(通用任务、NER 和情绪分析)
      • 使用 BIG-Bench(3 shot)标准进行知识评估
      • 知识评估(1 shot 和 5 shot)
      • 效果总结
    • 总结

论文摘要

NLP 在金融技术领域的应用广泛且复杂,主要应用场景包括情感分析、命名实体识别到问答等。 大语言模型 (LLM) 已被证明可以有效处理上述任务;但是,鲜少没有报道过有专门针对金融领域的文献。本作中,我们展示了 BloombergGPT 这个拥有 500 亿参数的语言模型,它采用大量金融数据训练而来。我们基于 Bloomberg 大量的数据源构建了一个 3630 亿个token数据集,这可能是迄今为止最大的特定领域数据集,并增加了来自通用数据集的 3450 亿个token。我们在标准 LLM 基准、开放金融基准和一套最能准确反映我们预期用途的内部基准上验证了 BloombergGPT。我们的混合数据集训练得到的模型表现出在不牺牲一般 LLM 基准测试性能的情况下,在金融任务上的性能明显优于现有模型。此外,我们还解释了我们的建模选择、训练过程和评估方法。 下一步,我们计划发布训练日志,详细说明我们在训练 BloombergGPT 方面的经验。

数据来源

**十多年来,Bloomberg一直是人工智能、机器学习和金融 NLP 领域的领导者。**他们开发了一种混合方法,将金融数据与通用数据集相结合,从而训练出一个既能在通用 LLM 基准测试中表现出色,同时又能输出一流的金融相关结果的模型。

为了开发 BloombergGPT,机器学习产品和研究小组与 AI 工程团队合作创建了(可能是)迄今为止最大的特定领域数据集。 他们利用Bloomberg现有的数据创建、收集和资源工具,利用其海量的金融数据文档创建了一个由英文金融文件组成的 3630 亿token的综合数据集。 然后,他们使用 3450 亿个token的公共数据集扩充此数据,创建了一个包含超过 7000 亿个token的训练语料库。

img

数据的年代分布

img

模型效果

使用上述语料库的一部分,Bloomberg团队训练了一个 500 亿参数的仅包含解码器的因果语言模型。由此产生的模型在现有的特定金融领域 NLP 基准、Bloomberg内部基准以及大量流行通用 NLP 任务基准上得到了验证。BloombergGPT 在金融任务上的表现明显优于现有的类似规模的开放模型,同时在一般 NLP 基准测试中的表现与其他模型持平或更好。

Bloomberg-GPT 的性能指标

img

使用的评估基准

img

用于评估金融任务的模板

img

金融领域任务的表现(通用任务、NER 和情绪分析)

img

img

img

使用 BIG-Bench(3 shot)标准进行知识评估

img

知识评估(1 shot 和 5 shot)

img

效果总结

在许多基准测试的数十项任务中,与其他数百亿参数的模型相比,BloombergGPT的表现是最好。此外,在某些情况下,BloombergGPT的性能可以媲美甚至超越更大规模(数千亿参数)的模型。虽然 BloombergGPT 的目标是成为金融领域的一流模型,并且包含了通用训练数据以支持特定领域的训练,但该模型在通用数据上的能力仍然超过类似规模的模型,并且在某些情况下,媲美甚至优于更大规模的模型。

总结

Bloomberg 的首席技术官 Shawn Edwards 看到了新模型的很多价值:“BloombergGPT 将使我们能够处理许多新型应用,同时它为每个应用提供了比自定义模型更高的开箱即用性能 ,从而换取更快的上市时间。”

Bloomberg 机器学习产品和研究团队负责人 Gideon Mann 解释说,机器学习和 NLP 模型的质量取决于你输入的数据。 得益于 Bloomberg 四十多年来精心策划收集的金融数据,他们能够精心创建一个庞大而干净的特定领域数据集,以训练最适合金融用例的 LLM。 他们很高兴使用 BloombergGPT 来改进现有的 NLP 工作流程,同时也想出新的方法来使用这种模型来服务他们的客户。

我个人认为这种模式可能会增加金融 LLM 的价值。 但是,必须注意到这只是同类领域中的第一个模型。 随着我们对金融数据的训练和调优,预计会有更多进步。 所以,我们可以把它看成是第一代硬件,用欣赏和测试的眼光去看待它,用于商用可能还为时过早。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32165.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023最新最新ChatGPT超全面从基础到实战视频教程/有兴趣自己学

正文: ChatGPT超全面从基础到实战视频教程,有兴趣的自行去研究学习吧,其它就没什么好介绍的了。 教程: wwxjas.lanzoum.com/inQN80ra5wfa 图片:

语音输入转文字怎么操作?分享几种语音转文字技巧

相信有不少小伙伴在整理语音文件的时候,都会有过怎样把这些语音直接转换成文字的想法吧。每次在我开完会之后,需要对会议语音进行整理时,都会产生这种想法。因为我们需要不断的去听这个会议的语音内容,这样做既费时又费力。但其实…

Android 文件转语音TTS输出(文字转语音)

一、介绍 目录 一、介绍 二、配置 三、使用 四、权限 五、补充 目前国内Android系统自带语音引擎基本上都是Pico TTS,Pico TTS不支持中文转语音播报。因为项目需要播放中文,引入科大讯飞引擎3.0.apk。 二、配置 下载好科大讯飞语音引擎3.0.apk&a…

将文本转为语音文件的各种TTS

1.jacob 在百度上搜索大部分结果都是它,支持中文, 但是不支持linux系统, github上给的文件是.dll, 这是个windows系统的文件 2.FreeTTS 这是我最开始找到的插件, 得益’于ChatGPT的推荐, 我在这个插件上耗了半天的时间, 但是它确实不支持中文, (事实上用它写代码也有不少坑, 给…

paddlespeech asr语音转录文字;sherpa 实时、离线、rtsp流语音转录

1、paddlespeech asr语音转录文字 参考: https://github.com/PaddlePaddle/PaddleSpeech 安装后运行可能会numpy相关报错;可能是python和numpy版本高的问题,我这里最终解决是python 3.10 numpy 1.22.0; pip install paddlepadd…

共享硬盘没有权限访问计算机,Win7系统打开磁盘共享说“没有访问权限

在操作win7系统的时候经常会在局域网中共享磁盘,方便其他用户访问共享资料等等,但是有win7用户说自己打开磁盘共享提示说“没有访问权限”,这是怎么回事?针对这个情况,下面小编就给大家讲讲解决的办法吧。 具体方法如下…

linux添加用户到附属组无权访问

目标:首先在root 超级用户权限下创建admin 和test俩个账号,然后用test用户访问admin用户的文件。 Linux创建新用户admin useradd admin passwd admin 为admin用户配置密码(root管理员模式下必须指定给那个用户创建密码) 同理在创建…

打印机扫描显示服务器拒绝访问,打印机拒绝访问,教您打印机拒绝访问怎么解决...

在办公的时候,很多时候都会使用打印机共享的功能,这样大家打印文件就方便很多了。而打印机的连接经常会出现很多问题,其中windows无法连接到打印机,拒绝访问,最为常见,也最为棘手,下面&#xff…

计算机没有u盘权限,访问u盘提示没有权限怎么解决,u盘无权访问的解决方法

在我们利用u盘从计算机中拷贝文件的时候弹出提示“需要管理员权限”,这是怎么回事呢?访问u盘提示没有权限怎么解决?今天,小编在这就教大家通过u盘属性设置来解决没有访问权限的问题。 具体的设置方法: 1、u盘连接上电脑…

你当前无权访问该文件夹 解决你当前无权访问该文件夹拒绝你访问该文件夹

我 这样就完成了 http://www.xitonghe.com/jiaocheng/windows7-5642.html https://jingyan.baidu.com/article/4b52d702aa01b3fc5c774b1b.html Win10正式版提示你当前无权访问该文件夹怎么办 https://jingyan.baidu.com/article/4b52d702aa01b3fc5c774b1b.html 1407345人看了…

访问ftp服务器不显示文件夹权限问题,访问ftp服务器显示无权限问题

访问ftp服务器显示无权限问题 内容精选 换一换 无法访问httpd文件服务器的下一级目录,提示无权限访问。查看系统中的日志(/etc/httpd/logs/error_log或var/log/httpd/error_log),发现selinux权限处于打开状态,没有权限访问/var/www/html/entry目录;报错日志内容:SELinux p…

打印机共享无法访问该计算机,共享打印机拒绝访问怎么办详细解决方案

在办公室经常要用到打印机,而一般都是大家共用一台打印机,它的连接方式属于共享打印机,而有时候我们会遇到共享打印机拒绝访问,这又是什么原因呢?其实原因很简单,那就是共享的权限问题,我们只需…

kibana设置账号密码 - nginx配置访问权限

kibana设置账号密码 一、背景二、实现修改配置文件主要配置这两项配置登陆用户帐号密码 三、效果如下 一、背景 kibana默认没有访问的权限控制,如果需要设置访问的账号密码,可以使用nginx配置代理来发布kibana。 二、实现 修改配置文件 server {liste…

因为计算机限制无法访问U盘,U盘拒绝访问怎么办解决教程

U盘使用过程中,莫名其妙的问题还是有很多的,其中最奇怪的就是出现U盘拒绝访问的问题,然后就无法打开U盘了,里面的资料也拷贝不出来,对于这种问题怎么办呢?下面就教大家解决。 方法一、排除是U盘问题还是系统…

Linux共享后无权限访问,Samba服务无权限访问

在CentOS上配置Samba服务好几天了,总是出现在Windows资源管理器中无法访问的问题: 开始总以为是我的smbpasswd -a root命令没有将用户加进去,之后添加/删除重复了不知多少次,还是不管用,把linux和Windows的防火墙都关闭了之后,还是不管用,便全面开始samba的服务配置,一步步操作…

win10提示“你当前无权访问该文件夹“的解决方法

今天删除文件夹的时候遇到了“你当前无权访问该文件夹”的提示,选择【继续】没用。 解决方法如下: step 1: 右键该文件夹,选择【属性】。 step 2: 选择【安全】栏——【高级】。 step 3: 【更改】 step 4&…

计算机提示无法访问手机tf卡,SD卡无法访问解决教程

SD卡在使用时间长了以后,出现问题是很常见的情况,而如果sd卡插到手机上或者电脑上显示sd卡无法访问的话,这种情况就比较麻烦了,当然也分情况,如果运气好只是逻辑损坏可以很轻松修复好,如果是物理损坏就希望…

访问控制

访问控制 访问控制基础自主访问控制模型强制访问控制模型基于角色的访问控制模型特权管理基础设施 访问控制基础 ◆理解访问控制的概念、作用及访冋控制模型的概念 访问控制基础 ◆什么是访问控制 ◆为用户对系统资源提供最大限度共享的基础上,对用户的访问权进行管…

您当前无权访问该文件夹

问题: 电脑重新做系统后,双击访问原硬盘上的资料文件夹,弹出对话框,无法访问,点击继续后无效 解决: 1.新建*.txt文件 2.复制粘贴下文到.txt文件中 Windows Registry Editor Version 5.00  [HKEY_CLAS…

Windows10无权访问该文件夹解决办法

我在重新安装操作系统后,有几个旧的文件夹由于参与了共享文件,莫名导致文件夹的用户访问权限错乱,根本原因是文件夹的访问权限无法识别新的系统用户,文件夹出现如下图的提示:“你当前无权访问该文件夹”。 如果右键点击…