深度学习中预训练模型与金融文本情绪分类任务概述(图文解释)

纯监督学习的不足之处

什么是预训练模型

 

预训练模型的演进过程如下

 

GPT模型撰写的第一篇学术论文

去年年底火爆全球的chatgpt模型想必大家都听说过,正是基于这个模型

 关键词生成绘画工具Disco Diffusion

EasyNLP:大模型小样本落地技术

当然这样势必会影响模型精确度,但是算是成本与精确度之间的tradeoff

 

参数规模发展趋势

 就目前chatgpt的效果来看,增加参数的效果还是不错的,但是同样的当参数大到一定程度后再增大参数边际效益递减严重,这时也许要寻求算法或架构上的突破

 基于BERTology的扩展模型

第一,调优 第二,压缩 第三,知识增强 第四,语义感知 第五,特定语种 第六,多语种和跨语种 第七,多模态和跨模态 第八,特定任务 第九,特定领域 第十,鲁棒 第十一,安全 第十二,融合模型

大规模分布式并行训练工具包

各方面对比如下

 大规模 Embedding 方案—— OneEmbedding

学习过计算机组成原理和操作系统的同学们对这幅图想必十分熟悉,上层执行速度快,但是成本贵并且容量小,因此我们引入了cache等策略

金融市场中情绪与涨跌走势的相关性

 2020年1月中国投资者情绪指数

就好比那句著名的话:信息比黄金还重要,投资者的情绪对于市场的走势影响是非常大的

 投资者情绪周期

 中国投资者情绪指数构建方法

 全网收集关于全部上市公司的投资者情绪相关的文本大数据。时间上从2008年7月开始,截止至2018年5月已收集约1亿5千万条文本信息。 利用中文分词技术对文本进行分词处理。 利用Word2Vec技术,将文本中的词语向量化。 对于国外的LM词典(Loughran和McDonald, 2011)运用翻译工具进行翻译和检查,构建中文版的LM词典。

在沪深300成分股中,选取200只股票,并对每只股票选取200条讨论帖子。由北京大学国家发展研究院教授、优秀博士和硕士生、市场投资者组成人工标注团队,对这4万条帖子进行人工标注。两人独立标注一条文本信息,根据其内容将其分为正、负、不确定三类,同时对每条帖子列出其包含的正、负关键词。标注完成后,保留标注分类一致的帖子,根据标注结果构建中国金融情绪词典(GB),并获得中国金融市场投资者情绪标注集。 …… 将训练好的最优模型应用到全部文本数据中,计算每个帖子的情绪得分。将不同股票帖子的情绪得分按照相应标准进行加总,构建不同指标体系的投资者情绪指数

FinBERT:预训练金融语言表征模型

简熵科技FinBERT 1.0模型 

国内首个在金融领域大规模语料上训练的开源中文BERT预训练模型。相对于Google发布的原生中文BERT、哈工大讯飞实验室开源的BERT-wwm 以及 RoBERTa-wwm-ext 等模型,本次开源的 FinBERT 1.0 预训练模型在多个金融领域的下游任务中获得了显著的性能提升,在不加任何额外调整的情况下,F1-score 直接提升至少 2~5.7 个百分点

澜舟科技金融版孟子模型 

2021年7月12日,澜舟科技-创新工场团队与上海交通大学、北京理工大学等单位联合研发的中文语言模型——孟子轻量型模型,仅包含10亿参数量,中文语言理解评测基准(Chinese Language Understanding Evaluation, CLUE)总排行榜、分类任务排行榜和阅读理解榜上登顶第一

百度文心·NLP大模型金融领域模型 

ERNIE-Finance在海量金融领域文本和通用文本上进行训练,使得模型学习了丰富的金融领域知识,在金融问答,金融事件主体抽取等一系列金融领域任务上提升显著。 ERNIE-Finance金融领域模型,从海量金融数据中学习了金融领域专业知识,在多个金融领域任务上大幅优于通用模型。为提升 ERNIE 在金融文本领域的效果,ERNIE-Finance 提出了多数据源,多任务模型分支策略,使模型在训练过程中顶层结构学习金融领域知识,底层结构可以同时获得来自金融文本和通用文本的知识

投资者情绪指数预测上证指数收益率趋势 

首先,基于BERT模型和股吧评论文本构建投资者情绪指数,并基于百度指数的搜索量情绪指数。然后,利用两个情绪指数和收益率多信息输入形式的LSTM-CNN对上证指数收益率的正负趋势进行了预测分析,在381个交易日内,基于策略可以获取20.15%的超额收益,但其最大回撤高达5.64%

BERT情绪提取器股票指数预测

作者采用 BERT 进行多任务学习(multi-task Learning, MTL),提取新闻报道到中的情绪和价值,并使用情绪极性随时间变化的度量方法(Polarity-Over-Time, POT )把新闻对股票指数走势方向的看法分为五类:非常积极(very positive)、积极(positive)、中性(neutral)、消极(negative)和非常消极(very negative),使用BERT+POT+MTL模型预测下周股票指数走势

创作不易 觉得有帮助请点赞关注收藏~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/54741.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

金融与AI相遇的一季,百融云创与AI相伴的花期

经济弱复苏的2023年,是前置发力的基建、是储蓄率飙升的消费、是基数坚韧的出口。当冗余的流动性遇到制造业的一柱擎天,2023的经济又是争夺生产要素定价权的数字化、是百团大战的大模型、是密不透风的薛定谔算法、是抢滩登陆的AIGC。 AI在各行业开花&…

剧本创作时的标准格式,让你的剧本轻松得到制片公司青睐

你的标题页 (注意格式正确 内容简洁) 标题页是用来标记你的名字和剧本名字的,所以它必须显得正确而整洁。标题用大号字体,下划线居中,位置大概在页面上缘往下 3 英寸处 。在标题右下角,用单倍行距写下你自己的名字、住址、城市、省份、邮政编码和电话号码 。用一个简单…

剧本写作app——Final Draft,帮你创建专业的主流编剧格式!

剧本写作App《Final Draft》能帮你用主流电影与电视制片公司常用的格式编写剧本。这款App准备了大量实用工具,能够在创作的每个阶段为你助力。 在头脑风暴时,你可以在“Beat Board”(节奏板)的卡片上充实角色与想法。这就像是在白…

playwright - 剧作家, 端对端测试

本文基于 playwright v1.34.3, node v18.16.0 注意:playwright 版本随 node lts 版本更新而更新,所以请确保 node 版本与 playwright 版本匹配。 写在前面 前端开发阶段,少不了测试,一般包含两类测试:单元测试、端对端…

微信小程序实现评分,包含满星、半星,模仿豆瓣电影评分显示

微信小程序实现评分功能 前言 本人在用原生小程序开发时&#xff0c;需要用到评分功能&#xff0c;于是自己动手撸了一个评分显示组件。包含满星、半星功能。废话少说&#xff0c;上才艺: 1、先任意创建组件&#xff0c;index.wxml代码如下&#xff1a; <view classstarb…

出售计算机广告英文作文,17年6月大学英语四级作文参考范文—二手电脑广告

原标题&#xff1a;17年6月大学英语四级作文参考范文—二手电脑广告 2017年6月大学英语四级考试已经结束&#xff0c;今年大学英语四级考试真题中有一套题为校园网上发布出售二手电脑的广告&#xff0c;文都教育英语老师为大家提供参考范文如下&#xff1a; 【题目】 Direction…

李小铭计算机专业应聘书作文,2018高考英语满分作文范文

范文二 Dear Terry: I am glad that you turned to me for advice in regard to visiting a Chinese friend, and the following are some local customs which I suggest you should be familiar with. First of all, if the Chinese friend of yours who you are going to pa…

成人高考 计算机英语作文,2018年成人高考英语作文范文六篇

【导语】成人高考是成人高等学校招生统一考试的简称&#xff0c;属国民教育系列&#xff0c;国家承认学历&#xff0c;参加全国招生统一考试&#xff0c;各省、自治区、直辖市统一组织录取。无忧考网为了帮助同学们更好的备考&#xff0c;特别整理了成人高考英语作文范文&#…

60个AIGC专业术语手册;5种大模型微调方法总结;大模型创业潮成败点评;AIGC通用大模型产品测评报告 | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; &#x1f916; ChatGLM 金融大模型挑战赛&#xff0c;冠军送12B模型授权30W算力 GLM大模型联合安硕信息、阿里云、魔搭社区、北京交通大学&#xff0…

文心一言——何妨吟啸且徐行

百度全新一代知识增强大语言模型&#xff0c;文心大模型家族的新成员&#xff0c;能够与人对话互动&#xff0c;回答问题&#xff0c;协助创作&#xff0c;高效便捷地帮助人们获取信息、知识和灵感。 文心一言可以做什么&#xff1a; 与人对话互动&#xff0c;回答问题&#xf…

数据分析实战:利用python对心脏病数据集进行分析

↑ 关注 星标 ~ 有趣的不像个技术号 每晚九点&#xff0c;我们准时相约 我们都很害怕生病&#xff0c;但感冒发烧这种从小到大的疾病我们已经麻木了&#xff0c;因为一星期他就会好&#xff0c;但是随着长大&#xff0c;各种发炎、三高、心脏病、冠心病响应而生。 心脏病作为…

python毕业设计 医学大数据分析 - 心血管疾病分析

# 1 前言 &#x1f6a9; 基于大数据的心血管疾病分析 &#x1f947;学长这里给一个题目综合评分(每项满分5分) 难度系数&#xff1a;3分工作量&#xff1a;3分创新点&#xff1a;4分 选题指导&#xff0c;项目分享&#xff1a; https://gitee.com/yaa-dc/warehouse-1/blob…

Python数据分析—基于机器学习的UCI心脏病数据分析(源码+数据+分析设计)

本设计源码、数据和设计已经开源&#xff0c;点击链接下载&#xff0c;喜欢的话就点赞加收藏吧&#xff01; 下载链接&#xff1a;https://pan.baidu.com/s/1ys2F6ZH4EgnFdVP2mkTcsA?pwdLCFZ 提取码&#xff1a;LCFZ 研究基础 心脏病是一类比较常见的循环系统疾病。循环系统…

【毕业设计】大数据心血管疾病数据分析(医学大数据分析)

文章目录 0 前言1 课题背景2 数据处理3 数据可视化4 最后 0 前言 &#x1f525; Hi&#xff0c;大家好&#xff0c;这里是丹成学长的毕设系列文章&#xff01; &#x1f525; 对毕设有任何疑问都可以问学长哦! 这两年开始&#xff0c;各个学校对毕设的要求越来越高&#xff…

【毕业设计】医学大数据分析 - 心血管疾病分析

1 前言 &#x1f6a9; 基于大数据的心血管疾病分析 &#x1f947;学长这里给一个题目综合评分(每项满分5分) 难度系数&#xff1a;3分工作量&#xff1a;3分创新点&#xff1a;4分 &#x1f9ff; 选题指导, 项目分享&#xff1a; https://gitee.com/dancheng-senior/proje…

大厂开源之殇

‍ 本轮开源之风吹起迄今数年&#xff0c;最大的影响还是越来越多的商业公司开始探索开源方法能够如何改变自己的经营策略。 开源策略循序渐进分成使用、参与和发起。 在发起开源项目实践一线的&#xff0c;一个是打着开源旗号的创业公司&#xff0c;另一个就是大型企业尤其互联…

Zerobot僵尸网络出现了新的漏洞利用和功能

©网络研究院 Zerobot DDoS僵尸网络已经获得了重大更新&#xff0c;扩展了其针对更多互联网连接设备和扩展网络的能力。 微软威胁情报中心 (MSTIC)正在以DEV-1061的名称跟踪持续的威胁&#xff0c;名称为未知、新兴或发展中的活动群集。 本月早些时候&#xff0c;Fort…

github action 基于个人项目实践

前言: DevOps 和 Jenkins 作为一名开发&#xff0c;虽然也没有经常听到 Devops &#xff08;研发和运维一体化&#xff09;这个概念&#xff0c;但日常工作中已经无处不在地用着 DevOps 工具。自研也好&#xff0c;基于开源项目改造也好&#xff0c;互联网公司基本都会有自已的…

张晴晴:对话数据推动AIGC——大模型底层数据探索

“Training data is technology” . 数据即科技&#xff0c;OpenAI的联合创始人IlyaSutskever在与知名科技媒体The Verge访谈中提到。ChatGPT自发布以来热度席卷全球&#xff0c;一周前惊艳亮相的GPT-4更是让人感叹我们迎来了AI发展的历史性时刻。 然而我们也困惑&#xff0c;O…

通过CSIG—走进合合信息探讨生成式AI及文档图像处理的前景和价值

一、前言 最近有幸参加了由中国图象图形学学会&#xff08;CSIG&#xff09;主办&#xff0c;合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG企业行——走进合合信息”的分享会&#xff0c;这次活动以“图文智能处理与多场景应用技术展望”为主题&#xff0c;聚…