GPT2中文新闻标题生成

6b30032bcda2f0455470bcf8f2a843df.gif

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程   公众号:datayx

项目描述

  • 本项目是一个带有超级详细中文注释的基于GPT2模型的新闻标题生成项目。

  • 本项目参考了GPT2-Chinese、GPT2-chitchat、CDial-GPT、GPT2等多个GPT2开源项目,并根据自己的理解,将代码进行重构,添加详细注释,希望可以帮助到有需要的人。

  • 本项目使用HuggingFace的transformers实现GPT2模型代码编写、训练及测试。

  • 本项目通过Flask框架搭建了一个Web服务,将新闻摘要生成模型进行工程化,可以通过页面可视化地体验新闻标题生成效果。

  • 本项目的代码详细讲解,可以自行阅读代码,也可查看代码注释介绍。

  • 本项目提供的新闻标题模型是一个6层的小模型(其实是穷人没人卡,只能训练小模型),并且在训练该模型过程中,没有加载预训练的GPT2模型而是随机初始化的参数,并且训练轮数较少(5轮,还没收敛完),因此效果一般。如果想要更好效果的模型,可以按照个人需求训练一个模型。

  • 本项目的目的是带领大家走一遍GPT2生成模型的训练、测试及部署全部流程。

  • 从网上收集数据,将清华新闻数据、搜狗新闻数据等新闻数据集,以及开源的一些摘要数据进行整理清洗,构建一个较完善的中文摘要数据集。

  • 数据集清洗时,仅进行了简单地规则清洗。例如:清洗htlm标记、去除多余空字符、去除图片标记等。

  • 处理后数据集详细信息,见数据集描述

    64881b57bbb1f8a07338d6e3df4d1ac1.png

    全部 代码  ,预训练模型 获取方式:

  • 关注微信公众号 datayx  然后回复 标题生成  即可获取。

测试结果如下:

f636c4b2a67334076511a000fd205eec.png

机器学习算法AI大数据技术搜索公众号添加: datanlp长按图片,识别二维码
阅读过本文的人还看了以下文章:
TensorFlow 2.0深度学习案例实战基于40万表格数据集TableBank,用MaskRCNN做表格检测《基于深度学习的自然语言处理》中/英PDFDeep Learning 中文版初版-周志华团队【全套视频课】最全的目标检测算法系列讲解,通俗易懂!《美团机器学习实践》_美团算法团队.pdf《深度学习入门:基于Python的理论与实现》高清中文PDF+源码《深度学习:基于Keras的Python实践》PDF和代码特征提取与图像处理(第二版).pdfpython就业班学习视频,从入门到实战项目2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码《深度学习之pytorch》pdf+附书源码PyTorch深度学习快速实战入门《pytorch-handbook》【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》《Python数据分析与挖掘实战》PDF+完整源码汽车行业完整知识图谱项目实战视频(全23课)李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!
《神经网络与深度学习》最新2018版中英PDF+源码将机器学习模型部署为REST API
FashionAI服装属性标签图像识别Top1-5方案分享重要开源!CNN-RNN-CTC 实现手写汉字识别yolo3 检测出图像中的不规则汉字
同样是机器学习算法工程师,你的面试为什么过不了?前海征信大数据算法:风险概率预测【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类VGG16迁移学习,实现医学图像识别分类工程项目
特征工程(一)特征工程(二) :文本数据的展开、过滤和分块特征工程(三):特征缩放,从词袋到 TF-IDF特征工程(四): 类别特征特征工程(五): PCA 降维特征工程(六): 非线性特征提取和模型堆叠特征工程(七):图像特征提取和深度学习如何利用全新的决策树集成级联结构gcForest做特征工程并打分?Machine Learning Yearning 中文翻译稿
蚂蚁金服2018秋招-算法工程师(共四面)通过全球AI挑战-场景分类的比赛源码(多模型融合)斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)python+flask搭建CNN在线识别手写中文网站
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python搜索公众号添加: datayx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/63457.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中文新闻文本标题分类(基于飞桨、Text CNN)

目录 一、设计方案概述 二、具体实现 三、结果及分析 四、总结 一、设计方案概述 主要网络模型设计: 设计所使用网络模型为TextCNN,由于其本身就适用于短中句子,在标题分类这一方面应该能发挥其优势。 TextCNN是Yoon Kim在2014年提出的模型&#xff…

“无法登陆到你的账户”的问题解决方案

电脑打开后,winR打开命令窗口 输入:netplwiz 点击添加 ​​​​​​​点击添加方框内 点击本地账户 输入你要创建的账号那些: 我当时已经创建好了,就是user. 然后需要将该用户设置为管理员权限即可。 重回回到,此时你…

聚观早报 | 美国又一家银行要暴雷;腾讯T13技术黄希彤被曝遭裁员

今日要闻:暴跌 62%!美国又一家银行要暴雷;三星上半年量产第三代 4nm 工艺;腾讯T13技术大佬黄希彤被曝遭裁员;华为 P60 系列将于 3 月 23 日发布;苹果公司CEO库克减薪40% 暴跌 62%!美国又一家银…

蓝筹股连环爆雷!这些蓝筹股哪些最容易爆雷?(最全名单)

幸福的股民总是相似的,不幸的股民去而各有各的不幸。天雷滚滚的2019年报季尚不去不远,不少股民们尚未从那场暗雷中疗伤正骨,2020年中报的雷声又开始拉响。 7月14日,有着“药中茅台”之称的东阿阿胶半年度业绩公布,作为…

我问自己代言,甄嬛篇

你只看到本宫的寿康宫 却没看到本宫的凌云峰 你有你的气度 本宫有本宫的本事 你嘲笑本宫菀菀类卿 本宫可怜你留得住人留不住心 你可以轻视本宫的存在 本宫会让你见识糙米薏仁汤的口感 回宫 注定是一段孤独的旅程 路上少不了三姑六婆 但 那又怎样?即使是滑胎 也要滑的…

淘宝618每日一猜6月6日答案-甄嬛在横店哪里参加的选秀?

淘宝6月6日每日一猜答案是什么?,接下来也会给大家来介绍一下6月6日淘宝大赢家每日一猜的答案。 淘宝每日一猜6月6日答案分享 活动问题:甄嬛在横店哪里参加的选秀 活动答案:【交泰殿】 还有打开手机淘宝,搜索“能省就…

吴忠军 - 《甄嬛传》宜修到死都不知道,这个和甄嬛无关的人帮了甄嬛一个大忙...

《甄嬛传》在甄嬛把华妃扳倒后,皇后便甩开手开始对付甄嬛了,比起华妃和甄嬛的眼里皇后是最好对付的,因为皇后手中掌握扳倒甄嬛的法宝,这便是皇后的亲姐姐纯元,皇后设计甄嬛穿错纯元故衣后,不仅是皇上大发雷…

专利战争:IT界的甄嬛传

分享到 本文来自腾讯大讲堂(DJT.QQ.COM),转载请注明出处。      近期热播电视剧“甄嬛传”完美收官,剧中女猪脚甄嬛的经历堪称一部女人的奋斗史诗,一方面要讨皇上的欢心,一方面又要跟华妃、皇后等后宫各方势力做斗争&…

熹贵妃竟是这种隐藏属性,从MBTI来看甄嬛“三姐妹”的爱恨情仇?

就在不久前的5月17日,农历四月十七,是熹贵妃的农历生日,这一天为了给嬛嬛庆生,朋友圈微博等各大平台,可热闹了起来,这盛况堪比那年果郡王为嬛嬛庆生~ 如今,距《甄嬛传》首播已经有1…

《后宫•甄嬛传》火爆背后的秘密

“I pity the empress. Poor empress.” “我很同情皇后,她很可怜。” “Do you think Zhen Huan really loves the emperor?” “你认为甄嬛真的爱皇帝吗?” From campuses to offices, from shopping malls to the streets, talk about Legend of Zhe…

李东学计算机在哪学的,被人遗忘的果郡王,从《甄嬛传》出来的李东学如今只能奋进的旋律...

作者/ 卡茜 编辑/ 冯寅杰 (本文原载于《创业人》杂志 原标题《李东学:《甄嬛传》让我沉迷于演戏》) 183公分的海拔跟“高”贴合无误,俊朗轮廓与“帅”亲密无间,招牌式如阳笑容把“谦和”、“绅士”逐字融入。他自己却说真正的“高富帅”应该是…

《甄嬛传》被日本网友热赞

近期《甄嬛传》开始在日本电视台播出,日本网友说:“孙俪美得让人惊叹,但又是脚踏实地的美,不像如今演艺圈的美女,都带着点小太妹的坏坏的美一样,我喜欢她这种稳重大气的美。 转载于:https://www.cnblogs.co…

《甄嬛传》影评(整理)

这部戏似乎将人物的性格变化以及人物之间的互动把握得很好,让人觉得这部戏里每个人物都栩栩如生,似乎就是生活中之人。我比较讨厌看一部戏中,很明显地将人物分为正面和反面角色。这部戏中,自然也会有正面和反面角色,但…

推荐电视剧 后宫甄嬛传 2012

后宫甄嬛传 百科名片 《后宫甄嬛传》海报 电视剧《后宫甄嬛传》改编自流潋紫所著的同名小说。由郑晓龙导演,孙俪、陈建斌、蔡少芬等人主演,由北京电视艺术中心制作。该剧是一部宫廷情感大戏,更注重描写"后宫女人"的真实情感&am…

《甄嬛传》解读--后宫女人的心酸血泪史之腹黑学

最近看了一部电视剧,叫做《甄嬛传》,虽然它的主体讲述的是雍正皇帝后宫的故事,但是故事里面的人物性格各个鲜明,在他们的身上总是能够或多或少的看到一丝丝自己的影子,当然我不是说要大家去争男人争宠什么的。 这部76集…

甄嬛传趣玩系统数据可视化分析

文章目录 前言一、角色情况基本概览二、1723-1730年大事件统计三、主要角色事件统计分析四、发生事件频繁角色统计总结 前言 本文在完成SQL Server和vb.net结合创建的甄嬛传趣玩数据管理系统为基础的前提下,继续采用vs 2019中商业智能模块中的Reporting Services进…

chatgpt赋能python:用Python轻松给手机用户发送短信——优秀的工具在手,无限可能!

用Python轻松给手机用户发送短信——优秀的工具在手,无限可能! 作为一个有10年Python编程经验的工程师,我想分享一下如何用Python给手机用户发送短信。Python是目前非常流行的编程语言之一,它可以轻松地完成很多任务。而给用户发…

汪子熙趣味成语接龙游戏的设计初衷

我国的汉语博大精深,其中数以万计的四字成语更是汉语中一颗颗璀璨的明珠,凝聚着中华民族几千年文明的精华。从小接触这些成语,对于小学生积累语汇,提高文学素养,和学习文言文方面有着很大的帮助。 本作品以益智游戏的…

计算机英语翻译的典故,中国成语故事英文版带翻译【六篇】

【导语】中国的成语博大精深,这也可以从侧面中看出我国古代的文化真的是源远流长,影响潜移默化。下面是无忧考网分享的中国成语故事英文版带翻译【六篇】。欢迎阅读参考! 【篇一】中国成语故事英文版带翻译 熟能生巧 Although Chen Yaozi was…

【电子学会】2021年09月图形化四级 -- 成语接龙

成语接龙 小猫从“一鸣惊人"开始岀题,以“人”字开头接下一个成语,如果输入的不是四字成语或者输入成语的第一个字不是上一个成语的最后一个字,游戏结束。 1. 准备工作 (1)保留舞台默认白色背景及小猫角色; (2)建立名为“词语接龙”的列表。 2. 功能实现 (1…