这款“狗屁不通”文章生成器火了,效果确实比GPT 2差太远

640?wx_fmt=jpeg

整理 | 夕颜

出品 | AI科技大本营(ID:rgznai100) 

【导读】最近,一个名字相当接地气的“狗屁不通”文章生成器(BullshitGenerator)火了,截至目前 GitHub 上 Star 数已超过 3200,还上了微博热搜。这个神器可以生成各种各样奇葩文章,比如领导专用“彩虹屁”万字长文。只有你想不到,没有这个神器写不成的文章。但是,生成的文章确实也是“狗屁不通”。这次我们就来解读一下,这个生成器是怎么运行的,以此为例,延展探讨一下文本生成未来还有哪些改进的方向。


话说,BullshitGenerator 这个项目最初起源于知乎上一位网友的提问:“学生会退会申请六千字怎么写?”,本来很简单的一个问题,但是回答中很多跑偏题的,于是本项目的贡献者之一表示看不下去了,并“随便写了个项目”:狗屁不通文章生成器,帮助这位同学写了一篇退会申请。
用 Python 生成的这篇文章长这样:
640?wx_fmt=png

由于下拉十多下没滑到底,让人失去了截全图的耐心,文章也实在看不下去,因为它真的是一篇逻辑不通的 bullshit。

AI科技大本营(ID:rgznai100)也用这个生成器尝试了几个大家都会思考的主题,比如:

       640?wx_fmt=png              640?wx_fmt=png              640?wx_fmt=png                     

试完之后笔者发现,文章本身是没什么探讨的必要性了,不信你可以自己试试:

生成器地址:https://suulnnka.github.io/BullshitGenerator/index.html

但是关于生成器的工作原理,相信很多人是比较感兴趣的。

运行原理是什么?


据贡献者介绍,本项目最初的目的是用于中文文字 GUI 开发时测试文本渲染,用 Python 3 版本写成,目前共有 7 位贡献者。 

鉴于目前 AI 用于文字生成非常流行,这个项目是否也用到了 AI 相关算法呢?答案是否定的,作者表示,BullshitGenerator 没有用到任何自然语言处理相关算法,只是简单地撸代码就可以达到效果。

那 BullshitGenerator 运行的原理是怎样的?AI科技大本营采访了CSDN博客专家@小宋是呢进行解读:

“狗屁不通生成器”是一个文本生成器,用来生成一些中文文字用于 GUI 开发时测试文本渲染。由于此项目的目的只是用于 GUI 开发时测试文本渲染,所以对文本的连贯性和含义要求不高,这也就是“狗屁不通”的含义了

 


if __name__ == "__main__":   xx = input("请输入文章主题:")   for x in xx:       tmp = str()       while ( len(tmp) < 6000 ) :           分支 = random.randint(0,100)           if 分支 < 5:               tmp += 另起一段()           elif 分支 < 20 :               tmp += 来点名人名言()           else:               tmp += next(下一句废话)       tmp = tmp.replace("x",xx)       print(tmp)
 

从源码中可以看出,生成文本的方式就是从本地读取到的文本中按照一定规律随机读取,并且替换掉文本中“x”为指定的主题文本,并未使用深度学习方法。不难发现,生成的文本会存在句子不连贯、重复性高的特点。


是否能与 GPT 2 结合?

issue 中有人发表了对这个项目的评价:

       640?wx_fmt=png       

可以看到,大家对这个项目的评价还是以正面居多。其中,有人提到了希望与 GPT 2 进行整合:

      640?wx_fmt=png

很快有人对这个想法提出疑问,比如算力的问题。那么,BullshitGenerator 与 GPT 2 整合的想法可行吗?或者是否有必要?@小宋是呢给出的看法如下:

个人觉得“狗屁不通生成器”与“GPT”结合意义不大,这两个项目的目标和特点差异很大。“狗屁不通生成器”是为了快速用来生成一些中文文字用于 GUI 开发时测试文本渲染,而“GPT”文本生成器目标是生成高质量连贯文本,“GPT”的特点是模型大速度慢质量高,并不满足“狗屁不通生成器”的设计需求。 

GPT 2 是 OpenAI 推出的一个中文生成模型,由加拿大工程师 Adam King 制作的网站上,任何人都能调教简化版的 GPT-2,它能够识别从新闻、歌词、诗歌、食谱、代码的各种输入,甚至还为《复仇者联盟》写了一个细节丰富的续集,内容可读性相当高。

       640?wx_fmt=png

令人振奋的是,这个史上最强的 NLP 模型今天正式全部开源,OpenAI 正式放出了 GPT 2 的最后一部分代码。

开源地址:https://github.com/openai/gpt-2。 

作为 GPT 2 分段发布中的最后一轮,此次公开的完整 GPT-2 包含 15 亿条参数,其中包含用于检测 GPT-2 模型输出的全部代码及模型权重。

当然,关于 GPT 2 的讨论仍在继续,比如它的实用性,生成假新闻被滥用引发的安全问题等,都是后续还有待改善的关键点。

此外,GPT 2 还有一个中文版本,相比之下,GPT2 与 BullshitGenerator 不同之处在于前者使用了 BERT 或 BPE 编译器,但同样不需要算法基础,只要简单 clone 运行即可,技术上的实现难度更大一些。

“GPT”是比较标准的自回归语言模型了,Transformer 出现前都是通过 RNN 的方法,之前比较火的“CharRNN”深度学习作诗与作曲都属于这个范畴。“GPT”将 Transformer 替换了 RNN,使得提取特征的能力与运算速度都得到很大提升,当然使用大规模数据训练模型也是“GPT”效果好的一个重要因素。

相较于“GPT”,“狗屁不通生成器”实现就简单很多,主要代码就几十行,基本上只用到了Python 编程技术。体现在文本的连贯性和含义上,虽然生成文本的质量不高,但它也满足了生成一些中文文字用于 GUI 开发时测试文本渲染的要求。

GPT2 中文项目:https://github.com/Morizeyao/GPT2-Chinese 


文本生成的未来


GPT 2 的横空出世让大家看到了 AI 在文本生成方面的潜力。正如 Open AI 官博所说,虽然 GPT 2 还面临检测等方面的挑战,但它的潜力还很大, Open AI 表示,未来这个模型还将继续进行改进,他们期望语言模型能够在性能上有更大的提升,以此提供更高的输出质量和准确性。

BullshitGenerator 项目也公布了下一步计划:

  1. 防止文章过于内容重复

  2. 加入更多啰嗦话.

  3. 加入马三立<开会迷>里的内容

  4. 加入手写体直接渲染出图片的功能(仅仅用于测试本人的打印机是否工作正常, 请勿做它用).

大胆设想一下,日后类似于 BullshitGenerator 这样的文本生成器将进一步改进,那么是否在没有 AI 算法的参与下,仅凭简单的代码就能够生成高质量的文本(虽然可能性几乎为零,但如果可以实现将是颠覆性的成果)? 从另一个思路来讲,以 GPT2 为代表的 NLP 模型现在已经可以生成以假乱真的文本,未来又该如何克服目前的挑战,生成更高质量的作品,同时能够保证安全? 是否未来有一天,文本生成技术或许真的会取代一部分人类的工作? 这些问题都值得深思。

本文特邀专家:小宋是呢 @CSDN博客专家&知乎深度学习专栏作家(微信公众号 ID:aideepmiss)。在校前两年半时间,获得省级一等奖(以上)奖项十次,毕业时,第一作者授权实用新型&发明专利共计二十余项。

目前研究方向:自然语言处理与自动语音识别、图像识别与自动检测、图神经网络与推荐系统。

(*本文为AI科技大本营原创文章,转载请微信联系 1092722531



精彩推荐




12月6-8日,深圳!2019嵌入式智能国际大会,集聚500+位主流AIoT中坚力量,100+位海内外特邀技术领袖!9场技术论坛布道,更有最新芯片和模组等新品展示!点击链接或扫码,输入本群专属购票优惠码CSDNQRSH,即可享受6.6折早鸟优惠,比原价节省1000元,学生票仅售399元


640?wx_fmt=jpeg


推荐阅读

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/71564.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【IEEE】IEEE论文接收后proof(校样)全流程实例讲解

文章目录 1. proof邮件内容分块解读1.1 获取你的校对文件的步骤1.2 上传修正稿关于什么时候缴费 2、校对稿首页的一般说明 在论文被接受并提交Final Version.pdf文件之后的第4天&#xff0c;收到了proof(校样)的要求。(注意&#xff1a;由于IEEE旗下期刊众多&#xff0c;编辑和…

计算机硕士论文盲审,研究生毕业论文盲审那些事,你造吗?

原标题&#xff1a;研究生毕业论文盲审那些事&#xff0c;你造吗&#xff1f; 首先声明&#xff0c;盲审研究生论文——无论博士或是硕士——纯粹属于扯淡之列&#xff0c;虽然鄙人无权更正&#xff0c;也不敢不从&#xff0c;但根本没有看得起发明该项技术的人&#xff01; 有…

输入正确的账号密码和验证码后 验证码一直报错误的解决办法

这两天写了一个登录的功能页面&#xff0c;用的是ivew&#xff0c;大致样子长这样 输入正确的账号密码以及验证码后死活提示验证码错误&#xff0c;后来查了下才发现需要对发起请求的时候配置 withCredentials: true 我用的是axios&#xff0c;配以了一下就可以了&#xff0c;…

Windows10系统中Foxmail修改密码之后登录一直提示密码错误

情况说明&#xff1a;这是Windows10中自带的针对Foxmail邮箱的特殊毛病 1&#xff1a;右键Foxmail图标&#xff0c;选择属性 2&#xff1a;点击“兼容性” 点击下面“更改所有用户的设置” 3&#xff1a;勾选“以管理员身份运行此程序”

java基于Android快递物流服务系统

&#xff08;1&#xff09;后台管理平台 设计实现物流管理平台&#xff0c;完成对司机、所载货物、出发点、目的地、运输轨迹等的管理。主要研究的内容为前后端框架的选择&#xff0c;对系统信息的展示与管理。 数据展示&#xff1a;管理人员通过不同的筛选条件&#xff0c;查…

一篇文章告诉你,为什么移动数据捕获对运输物流公司很重要?

随着世界走向数字化和智能手机的使用增加&#xff0c;移动数据采集正在成为大多数行业的新常态。航运物流也不例外。从捕获详细的订单和交付信息到跟踪货运和仓库位置&#xff0c;条形码技术用于运输物流世界的每一步。通过智能数据采集&#xff0c;运输和物流公司可以获得更好…

盘点那些参与央行数字货币的公司们

来源:互链脉搏 法定数字货币一直属于央行内部的保密项目&#xff0c;其参与方的身份更是神秘。而12月24日&#xff0c;几则消息的公布&#xff0c;使得央行数字货币参与方的轮廓愈加清晰。 当天&#xff0c;腾讯内部发布了《关于成立数字货币研究项目组&#xff08;虚拟组织&am…

新春特辑 | 大数据专题合辑 报告下载

志在哪里&#xff0c;哪里就有成功&#xff1b;心在哪里&#xff0c;哪里就有风景&#xff1b;爱在哪里&#xff0c;哪里就有感动。在新年来临之际&#xff0c;互联互通社区衷心祝愿您&#xff1a;春节快乐&#xff0c;身体健康&#xff0c;心想事成&#xff01; 1、2020大数据…

元宇宙游戏开发 元宇宙游戏开发公司

元宇宙游戏开发、元宇宙操作系统开发设计、元宇宙操作系统基本建设、元宇宙游戏开发源码、沉浸式体验元宇宙游戏开发、大中型元宇宙游戏开发、元宇宙土地修建、3D元宇宙游戏开发。现阶段&#xff0c;大家精英团队在元宇宙游戏开发新项目层面的工作经验比较完善&#xff0c;在元…

mcu服务器芯片 概念股,MCU芯片概念股名单一览,6股2021股价翻番

缺“芯”给了MCU芯片概念股一剂强行针&#xff0c;23只MCU芯片概念股中竟有6股2021股价涨幅超100%【富满电子、国民技术、全志科技、上海贝岭、士兰微、中颖电子&#xff0c;其中富满电子、国民技术股价涨幅超200%】&#xff0c;为此MCU芯片概念股完全可以雄霸A股2021年各种热门…

HTML+CSS制作仿制当当网

新程序员&#xff1a;一起进步 目录 前言 一、项目代码 1.头部 2.导航栏 3.banner图 4.主体 5.底部 6.附录 前言 本项目是基于Html5CSS3技术所制作的静态网页&#xff0c;适合新手练习学习完成html之后所独立完成的静态网页 一、项目代码 1.头部 效果图&#xff1a…

STM32应用开发实践教程:初识STM32

1.1.1 什么是 STM32 1&#xff0e;STM32 概述 STM32 微控制器是意法半导体&#xff08;ST Microelectronics&#xff0c;ST&#xff09;有限公司出品的一系列微控制 器&#xff08;Micro Controller Unit&#xff0c;MCU&#xff09;的统称。 意法半导体有限公司于 1987 年 6 月…

物联网应用案例:镇海智慧水务

作者 | 余章琪 责编 | 薄荷茶 微信公众号ID | csdn_iot 1 项目简介 宁波市镇海区智慧水务项目建设内容包括水环境治理设施监测、水务信息资源中心、水务综合监管平台&#xff08;监测监控、治水监督、应急指挥、综合服务、决策支撑及集成开发&#xff09;、水务专题应用&#x…

Hyperchain超块链创始人史兴国解读“A股Web3.0概念股涨停潮”

最近A股上市公司Web3.0概念股逆势大涨&#xff0c;成为市场新热点。11月10日&#xff0c;Web3.0概念股掀起涨停潮&#xff0c;其中天地在线获10天8板&#xff0c;榕基软件4连板。飞利信、中文在线、二六三、科蓝软件、东港股份等多家上市公司回应已布局相关业务。Hyperchain超块…

I2C协议

关于I2C I2C最早是飞利浦公司在1982年开发的一种双向二线制串行总线协议。它只需要两根信号线就能完成信息交换&#xff0c;发展至今已经有100kHz、400kHz、1MHz、3.4MHz、5MHz五种通信速率。最终通信速率取决于外设而非主机芯片。 I2C信号线 SCL时钟线 SCL时钟线决定了通信…

一周信创舆情观察(2021.12.27~2022.1.3)

一、一周舆情要点 2021年12月24日,《中华人民共和国科学技术进步法》修订通过,其中第九十一条明确:对境内自然人、法人和非法人组织的科技创新产品、服务,在功能、质量等指标能够满足政府采购需求的条件下,政府采购应当购买;首次投放市场的,政府采购应当率先购买,不得…

四大行、三大运营商在列,或有15家公司参与央行数字货币

“四大行、三大运营商、华为、腾讯是当前已基本明晰的央行数字货币建构方。” 本文来源&#xff1a;互链脉搏&#xff1b;作者&#xff1a;金车走&#xff1b;该内容旨在传递更多市场信息&#xff0c;不构成任何投资建议。 法定数字货币一直属于央行内部的保密项目&#xff0c;…

《程序员》6月精彩内容:物联网开发技术栈

作为互联网技术的进化&#xff0c;物联网开发并非孤立的技术栈&#xff0c;而是向上承接了互联网&#xff0c;向下统领了嵌入式硬件开发的一个承上启下的全栈开发技术。 作为正在快速进化中的新互联网技术&#xff0c;我们并不能预测物联网技术栈最终的样子&#xff1a;统一的…

Python实战系列-爬取网页内容

Python实战-爬取网页内容 from selenium import webdriver browser webdriver.Chrome() browser.get(http://finance.sina.com.cn/realstock/company/sh000001/nc.shtml) data browser.page_sourceprint(data)browser.quit() # 退出模拟浏览器打印内容&#xff1a; <h…

国内MCU厂商也开始卷了

关注星标公众号&#xff0c;不错过精彩内容 转自 | 痞子衡嵌入式 传统 ARM 内核 MCU 受到高昂授权费的影响&#xff0c;很多 MCU 厂商开始转型或入局 RISC-V内核MCU。 今天就来给大家分享一下由痞子衡整理的国内多家RISC-V内核MCU厂商。 注&#xff1a;欢迎大家留言告诉新晋RIS…