零代码编程：用ChatGPT批量提取网页上的文本信息内容

现在有很多个网页：

要批量提取网页内的文本：

可以在ChatGPT中这样写提示词：

你是一个Python专家，写一段Python程序，完全提取网页文本内容的任务，下面是一步步的步骤：

打开表格文件，文件路径：F：\传感器企业大全(传感器专家网)20230714.xlsx；

获取表格E2单元格到E3939的单元格的内容，如“/brand/6182.html”，前面加上“https://www.sensorexpert.com.cn”，构成一个URL，注意：从第2行开始读取；

打开这个URL，Request headers为：

Authority:

http://www.sensorexpert.com.cn

:Method:

GET

:Path:

/brand/6182.html

:Scheme:

https

Accept:

text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7

Accept-Encoding:

gzip, deflate, br

Accept-Language:

zh-CN,zh;q=0.9,en;q=0.8

Cache-Control:

max-age=0

Sec-Ch-Ua:

"Not.A/Brand";v="8", "Chromium";v="114", "Google Chrome";v="114"

Sec-Ch-Ua-Mobile:

Sec-Ch-Ua-Platform:

"Windows"

Sec-Fetch-Dest:

document

Sec-Fetch-Mode:

navigate

Sec-Fetch-Site:

none

Sec-Fetch-User:

Upgrade-Insecure-Requests:

User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36

定位xpath=/html/body/div[1]/div/div/div[2]/div[3]/div/div[1]/div/div/p[5]/strong 的strong 元素，提取里面的内容,设为变量:sensortitile,打印输出；

定位class="content-company"的div元素，使用 xpath('.//text()') 来获取所有子元素的文本，并使用 join() 方法将它们连接在一起，然后使用 strip() 方法进行清理；提取的文本内容设为变量:sensorcompany；

在F盘新建一个Excel：传感器企业简介.xlsx，第1列写入sensortitile，第2列写入sensorcompany，第3列内容为“传感器企业大全(传感器专家网)20230714.xlsx”中的URL；

注意：每一步都要输出信息；

如果没有获取到strong 元素或div元素内容，就写入空值；

每爬取1个URL内容，随机暂停3秒以内；

要有应对反爬虫的措施，比如设置请求头；

程序运行后的结果：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/30240.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

零代码编程：用ChatGPT批量提取网页上的文本信息内容

相关文章

用不同作家风格编写知乎文，练习写作技巧，我竟然发现了这个秘密！

国内大模型研究

如何获取用户当前位置并生成国际拨号前缀+验证不同国家的手机号格式

国际手机号码检查纠正 API 接口

国际电话区号--各国或地区电话国际区号对照表

ChatGPT与人类大脑相比：揭示AI的优缺点

ChatGPT 和 Elasticsearch：分面、过滤和更多上下文

Elasticsearch：如何使用 Elasticsearch 以自然语言提示 ChatGPT

Elasticsearch：在 Elastic 中访问机器学习模型

谁是Al生成内容的作者？从法律视角的探讨

【电路原理学习笔记】第2章：电压、电流和电阻：本章习题

深耕视听领域的匠人，如何看多媒体技术未来？ | 专访上海交大宋利

怎么系统的阅读文献

微信登录——授权登录获取用户信息

空指针的传说——从神秘出生到打败AI败类

LLM-2023：Auto-GPT

强烈推荐一个Python可视化模块，简单又好用！

如何在家赚钱？宅在家里做点什么能挣钱

2023年，知识付费行业呈现哪些发展趋势？

一起推动更为广泛的创新发生！AIGC分布式创新联盟#工作小组介绍