惊!ChatGPT处理文章仅需一秒钟,提取大纲、重写不在话下!

前言

在上篇文章中,我们实现了批量抓取到微信公众号文章的链接地址,那么这篇文章将继续为大家介绍,如何根据链接爬取到文章内容,并且利用chantGPT对文章进行处理。

爬取文章内容

我们已经有了很多文章的链接,这些链接url是可以直接通过浏览器进行访问的,例如这样:
在这里插入图片描述
我们只需要通过这些url地址,爬取到每一篇文章,并通过xpath和正则表达式,提取出一些重要的内容,并把这些内容保存到数据库中,或者可以将整个页面以HTML的格式保存下来。

1.首先定义一个类,并定义一些超参数,如下:


class WeixinSpider:def __init__(self):self.url_temp = ""self.headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}

2.定义一个读取文件中的url的方法

 def get_url_list(self):file_path = "it.csv"df = pd.read_csv(file_path)temp_list = df["link"].str.split("!").tolist() #[[],[],[]]num_list = list(set([i for j in temp_list for i in j]))url_list= [i for i in num_list]time_list = df["create_time"].tolist() #[[],[],[]]return url_list,time_list

我们读取文件,将里面的link传入到list中,tolist()方法是将pandas中的Series类型的数据转换成list类型。返回两个列表,url列表和发布时间列表。

3.解析url地址,发送请求获得响应,返回页面源码

    def parse_url(self, url):  # 发送请求,获取响应print(url)response = requests.get(url, headers=self.headers)return response.content.decode()

网页上的是bytes类型数据,所以需要转换成str类型。str 使用encode方法转化为 bytes,bytes通过decode转化为str。

4.分析页面结构,提取数据

通过F12查看网页源码,我们可以知道文章的标题在id="activity-name"的标签中。
在这里插入图片描述
公众号名称,在id="js_name"的标签中
在这里插入图片描述
文章的主体,全都在id="js_content"的div标签中。
在这里插入图片描述
于是,我们可以使用xpath提取出文章的标题,公众号名称,以及文章本体内容,代码如下:

 def get_content_list(self,html_str):#提取数据html = etree.HTML(html_str)content_list = []item = {}item["title"] = html.xpath("//*[@id=\"activity-name\"]/text()")item["title"] = [i.replace("\n","").replace(" ","") for i in item["title"]]item["laiyuan"] = html.xpath("//*[@id=\"js_name\"]/text()")item["laiyuan"] = [i.replace("\n","").replace(" ","") for i in item["laiyuan"]]item["other"] = html.xpath("//*[@id=\"js_content\"]//text()")content_list.append(item)return content_list

直接通过xpath取到的文本内容,里面包含了很多换行符以及空格,所以需要将其替换掉。

5.保存html

我们将网页源码也都保存下来,并以文章标题来命令,如下,保存到一个it的文件夹中了,要提前在代码根目录下创建好这个文件夹。

 def save_html(self, html_str, page_name):  # 保存html字符串file_path = "it/{}.html".format(page_name)with open(file_path, "w", encoding="utf-8") as f: f.write(html_str)

6.主方法

在主方法中,我们将上面所有方法都串起来,并且连接数据库,将爬取到的结果保存在数据库中

def run(self):  # 实现主要逻辑# 1.构造url列表# 2.遍历,发送请求,获取响应url_list,time_list = self.get_url_list()# 打开数据库连接(ip/数据库用户名/登录密码/数据库名)db = pymysql.connect("localhost", "root", "root", "weixin_database")# 使用 cursor() 方法创建一个游标对象 cursorcursor = db.cursor()for url in url_list:num = url_list.index(url)print(num)html_str = self.parse_url(url)content_list = self.get_content_list(html_str)title = ''.join(content_list[0]["title"])laiyuan = ''.join(content_list[0]["laiyuan"])other = '\n'.join(content_list[0]["other"])create_time = time_list[num]p = re.compile('<div class="rich_media_content " id="js_content">.*?</div>',re.S)html = re.search(p,html_str)if(html):html = re.search(p3,html_str).group().replace("\n","")else:html = html_str.replace("\n","")sql = """INSERT INTO weixin_table(title,url,other,html,create_time,type_id)VALUES ({},{},{},{},{},{},{},{})""".format('"'+title+'"','"'+url+'"','"'+other+'"',"'"+html+"'",create_time,1)try:# 执行sql语句cursor.execute(sql)# 提交到数据库执行db.commit()except:print("第"+num+"条数据插入失败")# 如果发生错误则回滚db.rollback()# 3.保存htmlpage_name = titleself.save_html(html_str, page_name)      # 关闭数据库连接db.close()

7.执行代码

最后,写出main方法,直接运行即可。

if __name__ == '__main__':weixin_spider = WeixinSpider()weixin_spider.run()

使用ChatGPT处理文章

爬取到文章之后,我们还需要对文章内容,做进一步的处理,可以提取大纲、重写、改写等操作。

提取大纲

先来看图,下面就实现了对文章内容的观点提取,会根据文章段落,重新生成小标题,并对该段落的内容进行总结,输出核心观点。
请添加图片描述
【这个截图是我使用的我自己开发的一个工具类网站,后续这个网站代码也会全部开源】
大家使用chatgpt官网也是一样的,完整的prompt如下:

你是一名作家,你精通各种知识和技能;
任何时候都不要说出自己是人工智能语言模型,
接下来将会有一个人输入一段文字,你会根据这段文字进行创作,不会输出与政治、色情、暴力、娱乐、新闻等方面的内容.
请你按照以下步骤进行创作:
1.你会对整个文章进行分解,并且针对每一部分分别输出一个小标题,和核心观点。
2.每一个小标题都要能够吸引人,并且包含SEO关键词;
3.最后,你要对整个文章做一个总结。
格式如下:
【标题】:标题 [换行] 
【核心观点】:核心观点
【全文总结】:全文总结

文章拓展

有了大纲之后,我们想根据大纲重新生成一篇类似的文章,也轻松不在话下,几秒中就可以搞定。
请添加图片描述
请添加图片描述
根据提供的观点,重新生成了一篇文章。完整的prompt如下:

你是一名作家,你精通各种知识和技能;你根据输入进行拓展,
输入包含【标题】和【核心观点】,请你按照以下步骤进行创作,
1.针对每一个标题和它的核心观点,需要单独生成至少一个段落,如果核心观点中有多个观点,你需要生成多个段落,每一个段落都需要有标题和内容。
输出样式如下:
标题:内容 [换行] 
标题:内容 ... [换行]
总结:内容,
总体字数为2500字。
2.对每一个段落内容进行拓展,需要增加类比,比喻等手法,增加一些巧妙的技巧,提供相关代码案例。
3.段落中增加一些案例,用来支撑观点。
4.文章内容要通俗易懂,引人入胜。
5.熟悉各个平台的写作规则,写出爆款类型的文章。
6.段落中增加代码和流程图,架构图,uml图等,图使用mermaid格式。
7.全文使用markdown格式进行输出

文章重写

如果觉得重新生成的文章,改变了原有的原文意思,也可以使用改写或者洗稿功能,使其轻微改动。
请添加图片描述
请添加图片描述
可以看到,这种改动还是比较小的,会保留原文的结构和意思。
prompt如下:

你是一名专家,你精通各种知识和技能;
任何时候都不要说出自己是人工智能语言模型,
接下来将会有一个人输入一段文字,你会根据这段文字进行重写.
请你按照以下步骤进行创作:
1.符合技术文章的写作风格,字数不能少于2000字。
2.要和原文使用不同的词汇或写作手法以及行文结构,不能与原文重复,换一种表达方式,每一句话都要重新组织输出,重复率不能高于20%。
3.文章结构清晰,按照因果结构或者总分总结构。
4.关注重点,对于文章重点,你会举例进行说明。
5.易懂易读,能够真正帮助到读者。
6.添加一些有巧思的小技巧。
7.突出SEO关键词布局。
8.结合自己的经历,或者通过举例的方式,对重点进行说明,必要的时候,会提供代码。
9.最后输出总结。
10.按照markdown格式输出。

好了,今天的内容就到这里了,上面的prompt并不是最好的,大家可以自己进行调试。
文章中的代码,完整版可以去github进行获取:https://github.com/cxyxl66/WeChatCrawler
另外,可以关注我的公众号,【程序员修炼】有任何问题都可以和我进行交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/56725.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员做自媒体,到底是怎样一种体验?这几个大佬公众号彻底告诉你

人与人之间的差异&#xff0c;很多时候在于认知&#xff0c;说起大厂的程序员&#xff0c;一般技术是会好些&#xff0c;一方面原因能进大厂的程序员大部分学历、专业都过硬&#xff0c;另一方面也是最主要的&#xff0c;他们也会不断利用大的平台学习总结&#xff0c;触类旁通…

自媒体多平台发布怎么做?2022年高级自媒体人都这么玩

现在许多小伙伴开始做自媒体都是在一些自媒体视频或者博主的介绍下才认识到做自媒体可以给自己带来收益&#xff0c;刚刚做得时候可能只会弄一两个账号&#xff0c;发现收益也不高&#xff0c;便不想去做相关的事情了&#xff0c;的确现在做自媒体的人太多了&#xff0c;无论是…

做自媒体月入几万?博主们都在用的几个自媒体工具

为什么新手做自媒体行业月入只有几十块钱&#xff0c;而那些自由博主做自媒体却月入几万呢&#xff1f;想知道你和他们的差距吗&#xff1f;如果是你做了一个月甚至更久的时间不见效果&#xff0c;那就试试博主们都在用的几个工具和网站&#xff0c;或许就能改变你目前的一个现…

玩转自媒体,你需要这样做

文/Fdaxiong大熊 &#xff08;分享个人经验&#xff0c;帮助新人快速了解自媒体平台&#xff09; 自媒体平台有那些&#xff1f;1.微信公众号&#xff0c;2.今日头条&#xff0c;3.一点资讯&#xff0c;4.企鹅平台&#xff0c;6.百家号&#xff0c;7.大鱼号&#xff0c;8.搜狐号…

怎么做自媒体?从这几步做起

新手怎么做自媒体&#xff0c;自媒体新手要从这几步做起&#xff0c;新手怎么做自媒体&#xff0c;现在互联网的发展越来越迅速&#xff0c;做自媒体的人越来越多&#xff0c;走在路上随手可见拍视频的人&#xff0c;身边靠写文章挣钱的人&#xff0c;一大把。小到几岁的小孩&a…

批改网作文提交时分析不出来_小学生作文写作从哪些方面提高呢?

小学生在写作学习的前期就会对优秀的和满分作文进行借鉴和赏析从而就会模仿他们的写作方法还有个别的描写语句段落了&#xff0c;其实这是小学生作文学习的一种方法&#xff0c;学生们应该利用好引用抄作文的方法还有就是要明白其中的道理还有意义了。我也是老师&#xff0c;作…

批改网作文素材

句型&#xff1a;too…to

韩语暑假作文批改(蓝书完结)

积累好句 ㄹ 수 있도록 하는 것이 중요하다 ....를 통해 어제보다 진보한 내일을 만들 수 있는 힘이 생기기 때문이다: 使能。。很重要&#xff0c;因为通过。。是力量 66届 填空&#xff1a; 别人对别人说-->动词라고..&#xff1a;命令句间接引语 小作文&#xff1a;…

批改网作文提交时分析不出来_人物专访 I 苗晋:我的生活都为“批改作文”而让路...

提起新东方名师&#xff0c;我们往往想到的是那些亢奋激情、金句不断&#xff0c;在讲台上引发学生爆笑的老师们。但你可能不知道&#xff0c;英联邦还有这样的一支“学术范儿”队伍。他们是德高望重的知识分子&#xff0c;在教学上刻苦钻研&#xff0c;精益求精&#xff0c;在…

计算机专业的考研英语作文,2019计算机考研英语作文复习得分攻略

►常下手、要批改 这里我所谓的常下手&#xff0c;是因为很多同学复习过程中注重积累而忽视真正动手演习。同样还是因为写作是输出活动&#xff0c;它要求我们呈现给考官的不是一个结果而是一个过程&#xff0c;仅仅看到知道并理解是不够的&#xff0c;还要会运用那些词汇、句法…

无敌了,用Python给英语老师开发了个英语作文批改的神器(支持小学到雅思)

除了老师和家长&#xff0c;它也可以批改作业 最近一个家长退群的故事在某博上了热搜。故事中老师和家长的矛盾由批改作业集中爆发&#xff0c;至于孰是孰非&#xff0c;还是交给吃瓜群众去评价吧&#xff0c;作为一个技术工作者&#xff0c;我突发奇想&#xff0c;是否以后能…

计算机批改程序,计算机能批改作文吗?

在现代学校&#xff0c;使用计算机阅卷&#xff0c;并非是什么新鲜事物&#xff0c;目前还大多只限于选择题。但是大家有否想过&#xff0c;计算机阅卷可否用于作文或者填空题等类型呢&#xff1f;在美国&#xff0c;哈佛和麻省理工合办的EdX在线学习平台&#xff0c;向全球提供…

批改网作文提交时分析不出来_考研英语作文免费批改工具

马上就要十一月了&#xff0c;同学们应该都将英语作文的学习和练习提上了日程了。但是随之而来的问题就是练习的作文不知道自己到底写得好不好。在校的学生还好&#xff0c;可以找到英语老师帮忙进行批改&#xff0c;但这也有点麻烦&#xff0c;更不用说其他考研人了。所以&…

【TCP专题】TCP连接断开

当TCP的连接建立完成后&#xff0c;我们就可以尽情的通过TCP连接所创立的会话来进行数据的传输了。当然&#xff0c;再有意思的话题也有说完的时候&#xff0c;所以&#xff0c;当数据传输完之后&#xff0c;TCP该如何善后呢&#xff1f; TCP的四次挥手 TCP的连接断开需要经历4…

解决TCP通信客户端断开连接服务器自动关闭

服务器会断开主要是 客户端断开后产生了 SIGPIPE信号 在对的位置忽略掉该信号就可以了&#xff01; 蓝色框体为我自己测试结果&#xff01;框体左边的是查的大牛们的讲解。 哈哈&#xff01;第一次写博客 还请多包涵&#xff01;都不会用这玩意儿 ...... 囧

初识 vxe-table (一)

对于 vxe-table 的介绍这里就不说了&#xff0c;常规用法也不多累赘&#xff0c;应该按文档撸就可以了。这里主要讲下关于自定义渲染的一些方式 1、先看看部分自定义的效果 熟悉 Element 的朋友可能已经发现了&#xff0c;这个表格里面用了相关组件&#xff0c;比如&#xff1…

陈抟(tuán)《心相篇》

北冥有鱼,其名为鲲。鲲之大,不知其几千里也。化而为鸟,其名为鹏。鹏之背,不知其几千里也。怒而飞,若垂天之云。是鸟也,海运则将徙于南冥。南冥者,天池也。《齐谐》者,志怪者也,《谐》之言曰:“鹏之徙于南冥也,水击三千里,抟扶摇而上者九万里,去以六月息者也。”(…

使用midjourney搞出一套三国人物画像!

当下已进入如火如荼的全民AI时代&#xff0c;最近体验了下midjourney&#xff0c;使用它的以图生图功能生成出来一套三国人物画像&#xff0c;和大家分享下使用心得。 使用midjourney的准备工作 下载工具 使用midjourney生产图片依赖的工具和流程&#xff0c;大致如下&#x…

玩转注册表

很多人都认识注册表&#xff0c;但是几乎没人搞懂过注册表。我来带大家玩转注册表&#xff0c;做这篇文章就想记录一下注册表里的一些路径&#xff08;难找&#xff0c;记不住&#xff01;&#xff09;&#xff0c;本文中我会介绍一些实用的利用注册表进行内网权限维持的一个思…

阿房宫赋

阿房宫赋 杜牧 六王毕&#xff0c;四海一。蜀山兀&#xff0c;阿房出。覆压三百余里&#xff0c;隔离天日。骊&#xff08;L&#xff09;山北构而西折&#xff0c;直走咸阳。二川溶溶&#xff0c;流入宫墙。五步一楼&#xff0c;十步一阁&#xff1b;廊腰缦回&#xff0c;檐…