BloombergGPT(LLM大模型用于金融科技)

BloombergGPT: A Large Language Model for Finance
先上论文地址,

  • paper:https://arxiv.org/abs/2303.17564

在这里插入图片描述
BloombergGPT 是彭博社从头自研的大模型,关键词有

  • 基于BLOOM模型,70层
  • 隐藏层维度7680,多头40
  • 50B参数,700B的token
  • 64个AWS X 8块40GB X A100=训练53天

该模型的定位是将协助彭博社改进现有的金融 NLP 任务,例如情感分析、命名实体识别、新闻分类和问答等,以更好地帮助公司的客户。因此它能在通用任务和金融特定任务上都有较好的表现,如上图所示。

数据集
数据集由通用任务数据集和金融数据集一起构成,以创建一个拥有超过7000亿token的大型训练语料库。
在这里插入图片描述
首先通用数据集共包含了3450亿个token,占总数据集token量的48.73%,如上图所示,占比比较大的数据集有:Pile-CC数据集, C4数据集等等等等,以保证模型对自然语言理解的通用能力。

为了打造目前最大的金融领域数据集,彭博社收集和整理了40多年的金融语言文档,其涵盖了一系列的主题,如新闻、档案、英文财经文档等等。这些金融领域数据集共包含了3630亿个token,占总数据集token量的54.2%,具体由以下几个部分构成:

  • Web:金融领域相关网页,2978亿token,占比42.01%
  • News:金融领域知名新闻源,376亿token,占比5.31%
  • Filings:公司财报,145亿token,占比2.04%
  • Press:金融相关公司的出版物,86亿token,占比1.21%
  • Bloomberg,49亿token,占比0.7%

因为包含一部分收费和私有数据,所以这份数据集不会被公开(emmmmm)。

模型优化
为了减少训练BlumbergGPT在云实例上占用的内存,使用了一系列优化方法:

  • ZeRO Optimization (stage 3)。ZeRO优化会在一组gpu中分散训练状态(模型参数、梯度和优化器状态)。BloombergGPT在训练的时候,在128个gpu上分割模型,在训练期间有4个模型的副本。
  • MiCS。目标减少云训练集群的训练通信开销和内存需求,MiCS包括分层通信(hierarchical communication)、2跳梯度更新(2-hop gradient update)、尺度感知模型分割(scale-aware model partitioning)。
  • Activation Checkpointing。通过消除在反向传递过程中的额外计算为代价,最小化训练内存消耗。当一个层启用了激活检查点时,只有该层的输入和输出在向前传递后被保留在内存中,而任何中间张量都将从内存中被丢弃。在反向传递过程中,这些中间张量可以被重新计算。其中,每个Transformer都会使用Activation Checkpointing。
  • 混合精度训练(Mixed Precision Training)。为了减少内存需求,在BF16中进行正向和向后传递,同时以全精度存储和更新参数(FP32)。我们还使用FP32来计算注意块中的softmax(BF16)。最后在FP32中计算了损失函数中的softmax。
  • 内核融合(fused kernels)。将多个操作的组合组合成一个GPU操作。这既可以通过避免在计算图中存储中间结果来减少峰值内存的使用,也有助于提高速度。所以作者们在SMP的自注意模块中使用了一个masked-causal-softmax融合核。在实践中,可以观察到4-5个TFLOPs对速度的提高,并在其余的配置中避免了内存不足的错误。

在这里插入图片描述
训练过程
如上图实线表示训练集损失,虚线表示验证集损失,而线条颜色的变化表示一些不同的参数配置。

总共训练了139,200步(~ 53天),并通过训练数据(709B个token中的569B)完成0.8个epoch后结束了模型训练,原因是验证集上的损失已经不再继续下降,甚至反增。

初始训练的batch size大小为1024,warm-up过程持续了7200步,随后将batch size修改为2048。由图可以看到,

  • 115,500步之后(蓝变橙),验证集上的损失不再下降,然后将学习率缩小为原始的2/3;
  • 129,900步之后(橙变绿),学习率缩小为之前的1/2,同时增加dropout;
  • 137,100步之后(绿变红),学习率再次缩小为之前的1/2。

训练在146,000步结束,最后选取139,200这一步的模型作为最终使用的模型

在这里插入图片描述
评估
评估在通用和金融的数据集上都测,如上图所示,

  • Public Financial Tasks。公共金融任务,5个任务。
  • Bloomberg Financial Tasks。彭博金融任务,12任务,主要是NER和情绪分析。对于金融领域来说,情绪分析十分重要,如新闻标题的“公司裁员1万人”一般被认为是负面情绪,这些情绪可能导致股价或投资者信心增加。
  • Big-bench Hard。23个任务,推理和一般NLP任务。
  • Knowledge Assessments。5个闭卷考试任务。
  • Reading Comprehension。5个开卷任务。
  • Linguistic Tasks。9个不直接面向用户的NLP任务。

在这里插入图片描述
External Financial Tasks的评估主要使用了以下公开数据集,

  • FPB。金融短语银行数据集,包括一个对金融新闻句子的情绪分类任务。
  • FiQA SA。第二个情绪分析任务是预测英语金融新闻和微博标题中的特定方面的情绪,这些都是2018年金融时尚比赛数据集的一部分,包括金融问题回答和观点挖掘。
  • Headline。是一个二元分类任务数据集,即黄金商品领域的新闻标题是否包含某些信息,其每篇新闻文章都带有以下标签的子集:“价格与否”、“价格上涨”、“价格下跌”、“价格稳定”、“过去价格”、“未来价格”、“过去一般”、“未来一般”、“资产比较” 。
  • NER。实体识别任务,用于从向美国证券交易委员会提交的财务协议中收集信用风险评估。
  • ConvFinQA。输入标准普尔500指数收益报告,其中包括文本和至少一个财务数据表,任务是回答需要对输入进行数字推理的会话问题。这个任务需要数值推理,以及需要对结构化数据和金融概念的理解。

Internal Task的评估是彭博社自己标注的数据集,主要围绕情绪。

  • Equity News Sentiment。为了预测新闻报道中对一家公司所表达的特定方面的情绪。该数据集包括来自彭博社的英语新闻报道、付费新闻和网络内容。
  • Equity Social Media Sentiment。这项任务类似于上一个任务,但这个使用的是与财务相关的英语社交媒体内容,而不是新闻。
  • Equity Transcript Sentiment。同上一个任务类似,使用的是公司新闻发布会的文字记录,而不是新闻。
  • ES News Sentiment。预测新闻报道中对一家公司(方面)所表达的特定方面的情绪,但目标并不是表明对投资者信心的影响。
  • Country News Sentiment。这个任务不同于其他的情绪任务,因为其目标是预测新闻故事中表达的对一个国家的情绪。该数据集由来自Blo的英语新闻故事组成 嗯,高级,和网络内容。如果新闻报道暗示了该国经济的增长、萎缩或现状,那么这些报道将被标注为“积极”、“消极”或“中性”。

Exploratory Task的评估是彭博社自己标注的数据集,主要围绕NER。

  • BN NER:这是一项针对 2017 年至 2020 年间出现在英文长篇彭博新闻内容(“BN wire”)中的实体的命名实体识别任务。
  • BFW NER:与“BN NER”类似,但它使用的是 2018 年至 2020 年间“Bloomberg First Word”电报中的短篇故事,而不是使用长篇 BN 电报。
  • Filings NER:此任务的目标是识别出现在公司提交的强制性财务披露中的实体。该数据集包含 2016 年至 2019 年期间采样的文件。
  • Headlines NER:此任务的目标是识别出现在英文彭博新闻内容标题中的实体。该数据集包含 2016 年至 2020 年间采样的标题。
  • Premium NER:此任务的目标是识别出现在彭博获取的第三方英文新闻内容子集中的实体。该数据集包含 2019 年至 2021 年之间采样的故事。
  • Transcripts NER:此任务的目标是识别出现在公司新闻发布会笔录中的实体。该数据集包含 2019 年的数据。
  • Social Media NER:此任务的目标是识别出现在英语财务相关社交媒体内容中的实体。 该数据集包含 2009 年至 2020 年间采样的社交媒体内容。

探索性任务: NER+NED(命名实体消歧),即不仅抽出实体,还要能链接实体到知识库或其他结构化信息源中的已知实体。在金融世界里,这种技术可以将公司的文本提及与它们的股票代码联系起来,以用来唯一地标识特定股票市场上公开交易的股票。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20508.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从零手写Resnet50,chatGPT是我的第一个合伙伙伴

大家好啊,我是董董灿。 之前写过一篇文章《万字长文解析Resnet50的算法原理》,很多小伙伴反应,看完之后学到了一些知识,学到了东西。 看到这些留言,感觉很有成就感。 有同学问文章后续,其实关于文章的后续…

ROS2手写接收IMU数据(Imu)代码并发布

目录 前言接收IMU数据IMU的串口连接问题 python接收串口数据 python解析数据ROS2发布IMU数据可视化IMU数据效果 前言 在前面测试完了单独用激光雷达建图之后,一直想把IMU的数据融合进去,由于经费的限制,忍痛在淘宝上买了一款便宜的IMU—GY95…

借助#chatGPT#编写分割图片并加空白拼接代码

想编写程序实现下面图片的这种效果,找了半天没有找到想要的,于是借助chatGPT获得代码并修改,得到以下代码。 from PIL import Image import numpy as np# 打开图片文件 image Image.open(test1.jpg) #208*48# 获取图片尺寸 width, heigh…

ChatGPT学习企业产品、服务内容、往期方案,处理所输入的客户需求,定制化生成解决方案

【ChatGPT】前些天发现了一个巨牛的人工智能学习电子书,通俗易懂,风趣幽默,无广告,忍不住分享一下给大家。(点击查看学习资料) 该场景对应的关键词库(6个): 企业产品和服…

chatgpt赋能python:Python聊天记录分析

Python聊天记录分析 聊天记录是人们日常生活中的重要组成部分,通过对聊天记录进行分析,我们可以了解到人们的话题、兴趣爱好、社交圈子等信息。Python作为一门强大的编程语言,可以帮助我们实现聊天记录的自动分析。 安装所需库 分析聊天记…

【chatGPT】chatGPT初步体验,赶快来学习吧

目录 1、什么是ChatGPT 2、我可以相信人工智能告诉我真相吗? 3、你会使用我的对话进行培训吗? 4、ChatGPT 接口参考 认证 请求组织 5、ChatGPT初体验 1、什么是ChatGPT ChatGPT的研究预览是免费使用的。 ChatGPT 是从 GPT-3.5 微调而来的&#x…

chatgpt赋能python:Python循环等待:什么是它?如何解决?

Python 循环等待:什么是它?如何解决? 在 Python 编程中,循环等待是一种常见的问题。它发生在代码一直等待某个操作的结果,而这个结果却永远不会到来。这种情况会导致程序停顿或挂起,从而影响整个应用程序。…

OpenAI 推出用于下一代对话式 AI 开发的 ChatGPT 和 Whisper API

人工智能已经成为技术行业的推动力,使机器能够学习和执行以前被认为是人类独有的任务。领先的 AI 研究机构 OpenAI 一直走在这场革命的最前沿,开发可以处理自然语言并生成类似人类文本的强大模型。其中一个模型是 ChatGPT API,它可以对文本输…

乌合之众再次上演,打工人将被AI一键淘汰?

ChatGPT,是一场以硅谷为圆心,辐射至全球的人工智能竞赛,人们关于人工智能的担忧与思考从未停歇。一起来看看这篇文章,了解一下——大浪来袭,要怎么做才能保证自己不会溺水? 上个月底,千余名科技…

AI数字人定制热潮来袭,虚拟数字人引领企业数字化服务新趋势

2023年伊始,AIGC 强势爆发、类 ChatGPT 语言大模型横空出世,掀起了人工智能热潮。ChatGPT的强势崛起,也推动着同样火爆出圈的元宇宙驶入发展快车道。作为一个人工智能领域超大的语言模型,ChatGPT目前主要应用在交互式对话的领域中…

2022年度十大AI技术盘点:AIGC风暴来袭,自动驾驶后会无期?

“科学不能告诉我们应该做什么,只能告诉我们能做什么。” ——让-保罗萨特《存在与虚无》 这一年,AI又有哪些前沿技术突破呢?通过汇总梳理2022年10大AI技术,AI科技大本营发现,这些突破主要集中在图像、视频和语音语义领…

算网时代新思考,2023 移动云大会重磅来袭!

4 月 20 日,中国移动发起微博话题 #算力网络如何助力数字中国建设#并重磅预告“云擎未来 智信天下”2023移动云大会即将启幕。“为什么大家如此关注算力网络的发展”,今天我们就着这个话题聊起。 算力作为发展数字经济的关键支撑,正改变我们…

超炫酷项目来袭!DragGAN 火爆开源社区!

你在 Github 上见过一个空仓库在短短几天内就斩获 10K star 的项目吗? 今天树先生给大家介绍一款超炫酷的项目——DragGAN,来一起看看它为何如此火爆。 DragGAN 是什么? 不同于之前大火的 Stable Diffusion 与 Midjourney 使用的扩散模型&a…

Hotel booking酒店预订——数据分析与建模

Hotel booking酒店预订——数据分析与建模:https://zhuanlan.zhihu.com/p/196757364?utm_sourcewechat_session 写文章 Hotel booking酒店预订——数据分析与建模(转载翻译自kaggle) 海上泊舟 数据分析师 数据源: https://www.sc…

Android开发酒店预定预约管理系统

基于Android平台开发的名宿酒店管理系统 现代酒店组织日益庞大,服务项目多、信息量大已经成为酒店行业的一大特点。想要提高工作效率、提高服务质量、降低成本就必须借助现代计算机技术实现高效率的管理模式。作为一个现代化的酒店,要想在激烈的竞争中夺…

基于android的酒店客房预订客户端app

随着社会的脚步的加快,人们的生活节奏也变得越来越快,在这同一时代中盛行的产品便是手机,各种高端的手机的出现,为人们的生活增添了很大的乐趣,也为人们的日常生活带来了相当大的便利。各种在手机上出现的应用被大家所…

国内酒店预定接口

酒店预订,在线订房,酒店信息查询 一、接口介绍 通过用户输入的关键词对特定及周边酒店信息进行查询,获取酒店门头照片、地址、房价、入住时间等酒店信息,同时提供创建、取消、支付订单并输出订单详情信息等服务。广泛应用于在线订…

【转载】用 ChatGPT+LangChain 部署到服务器,打造专属 GPT知识库

原文链接:https://www.bilibili.com/read/cv23216734 本地部署 安装 python,小白自己去找安装教程 pip install llama-index,安装 llama-index 库 pip install langchain,安装 langchain 库 pip install gradio,安…

音视频技术开发周刊 | 283

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 基于隐扩散模型的高分辨率图像合成 本文提出的隐扩散模型(LDM)在图像修补和类条件图像合成方面具有一定优势,并且在各种任务(包括文本到图像合成、无条件图像生…

智能摩尔定律?Sam Altman被Marcus怼了;再也不用学Excel了?自愿降薪 40% 的库克,要被“踢出”董事会?...

本周AI业界又有哪些新鲜事? ChatGPT 肯尼亚工人为ChatGPT标注数据,2美元/小时 作为近年来AI领域的爆炸技术,ChatGPT热度一直不减。然而,就和视频数据需要标注一样,ChatGPT在构建内容过滤器时也需要进行数据标注。这些数…