零代码编程:用ChatGPT批量提取网页上的文本信息内容

现在有很多个网页:

要批量提取网页内的文本:

可以在ChatGPT中这样写提示词:

你是一个Python专家,写一段Python程序,完全提取网页文本内容的任务,下面是一步步的步骤:

打开表格文件,文件路径:F:\传感器企业大全(传感器专家网)20230714.xlsx;

获取表格E2单元格到E3939的单元格的内容,如“/brand/6182.html”,前面加上“https://www.sensorexpert.com.cn”,构成一个URL,注意:从第2行开始读取;

打开这个URL,Request headers为:

Authority:

http://www.sensorexpert.com.cn

:Method:

GET

:Path:

/brand/6182.html

:Scheme:

https

Accept:

text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7

Accept-Encoding:

gzip, deflate, br

Accept-Language:

zh-CN,zh;q=0.9,en;q=0.8

Cache-Control:

max-age=0

Sec-Ch-Ua:

"Not.A/Brand";v="8", "Chromium";v="114", "Google Chrome";v="114"

Sec-Ch-Ua-Mobile:

?0

Sec-Ch-Ua-Platform:

"Windows"

Sec-Fetch-Dest:

document

Sec-Fetch-Mode:

navigate

Sec-Fetch-Site:

none

Sec-Fetch-User:

?1

Upgrade-Insecure-Requests:

1

User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36

定位xpath=/html/body/div[1]/div/div/div[2]/div[3]/div/div[1]/div/div/p[5]/strong 的strong 元素,提取里面的内容,设为变量:sensortitile,打印输出;

定位class="content-company"的div元素,使用 xpath('.//text()') 来获取所有子元素的文本,并使用 join() 方法将它们连接在一起,然后使用 strip() 方法进行清理;提取的文本内容设为变量:sensorcompany;

在F盘新建一个Excel:传感器企业简介.xlsx,第1列写入sensortitile,第2列写入sensorcompany,第3列内容为“传感器企业大全(传感器专家网)20230714.xlsx”中的URL;

注意:每一步都要输出信息;

如果没有获取到strong 元素或div元素内容,就写入空值;

每爬取1个URL内容,随机暂停3秒以内;

要有应对反爬虫的措施,比如设置请求头;

程序运行后的结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30240.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用不同作家风格编写知乎文,练习写作技巧,我竟然发现了这个秘密!

文 / 韩彬(微信公众号:量子论) 今天尝试着用不同作家的风格编写知乎文。 太严肃的文章没人看,所以我要找一些语言幽默的作家,通过模仿他们的风格写文章。 我列举了一些风格幽默较为知名作家,这些作家的作品…

国内大模型研究

自从chatgpt发布以来,国内大模型发展非常迅速。我对这项目技术也保持了非常多的持续关注,我一直认识,chatGPT以及其他GPT会给社会带来更大的变革。经过专业训练的大模型可以替代部分客服,部分程序员,部分美工&#xff…

如何获取用户当前位置并生成国际拨号前缀+验证不同国家的手机号格式

文章目录 前言一、引入并启用API二、js和html页面代码1.js代码2.html代码 三、将原生js写在vue项目中 前言 该demo使用了HTML5的Geolocation API和Google Maps API来获取用户的位置信息,应用libphonenumber库将位置信息转换为国际拨号前缀并在页面默认展示&#xf…

国际手机号码检查纠正 API 接口

国际手机号码检查纠正 API 接口 有效性检查及智能纠正,遵循 E.164 标准,智能统一格式。 1. 产品功能 智能检测国际手机号码有效性;可根据提供的国家编码参数,判断提供的手机号码是否为该国家有效手机号码;智能纠正提…

国际电话区号--各国或地区电话国际区号对照表

具体参考:国际电话区号--各国或地区电话国际区号对照表

ChatGPT与人类大脑相比:揭示AI的优缺点

与人类大脑相比, ChatGPT这种AI机器人拥有一些优点和缺点,下面小编会简单说下 优点: 1. 学习和处理速度: ChatGPT能够快速处理和学习大量信息,比人类大脑更快。 2. 综合知识: ChatGPT可以整合大量来自各个…

ChatGPT 和 Elasticsearch:分面、过滤和更多上下文

作者:Luca Wintergerst 在最近的一篇博客文章中,我们讨论了 ChatGPT 和 Elasticsearch 如何协同工作以帮助更有效地管理专有数据。 通过利用 Elasticsearch 的搜索功能和 ChatGPT 的上下文理解,我们演示了如何改进结果。 在这篇文章中&#…

Elasticsearch:如何使用 Elasticsearch 以自然语言提示 ChatGPT

作者:Enrico Zimuel 这些天每个人都在谈论 ChatGPT。 这种大型语言模型 (LLM) 的一项很酷的功能是能够生成代码。 我们用它来生成 Elasticsearch DSL 查询。 目标是在 Elasticsearch 中搜索 “给我股票指数中 2017 年的前 10 个文档(Give me the first 1…

Elasticsearch:在 Elastic 中访问机器学习模型

作者:Bernhard Suhm, Josh Devins Elastic 支持你需要的机器学习模型 Elastic 让你可以应用适合你的用例和 ML 专业水平的机器学习 (ML)。 你有多种选择: 利用内置的模型。 除了我们的可观察性和安全解决方案中针对特定安全威胁和系统问题类型的模型外…

谁是Al生成内容的作者?从法律视角的探讨

我们知道Al作品也可以具有独创性,并具备成为作品的条件。那么谁才是Al作品的作者呢?这次我们来一起分析下。 一、作者的定义 在版权法中,作者通常被定义为作品的创造者,是作品的原始所有者,并享有对作品的各种权利。通…

【电路原理学习笔记】第2章:电压、电流和电阻:本章习题

第2章:电压、电流和电阻 以后还是分开做,每一节习题都按节做,不集中在一起做了,太累了,而且要忙其他事,好不容易凑了几天时间做这个题 本章习题 同步练习 (2-1)3C电荷对应于多少…

深耕视听领域的匠人,如何看多媒体技术未来? | 专访上海交大宋利

引言 20 世纪 80 年代,当多媒体技术诞生,一个全新的多媒体应用时代大幕徐徐开启。四十年间,一代代技术人不断投身多媒体事业,这其中有许多深耕该领域的匠心人,埋首研究并持续创新,引领和推动多媒体技术不断…

怎么系统的阅读文献

文章目录 一、文献阅读1、综述类文献 review article2、研究类文章 research article3、方法学的文章第一部分 综述类文章的阅读第二部分 研究型文章的阅读a. 研究型论文结构b. 如何有选择阅读文献c. 如果整理笔记 Citation和Reference的区别 二、文献阅读工具1、Connected Pap…

微信登录——授权登录获取用户信息

引言 实现微信扫码登录关键之处就是获取到微信用户信息,那么这就涉及到了微信授权,通过微信授权我们可以获取到用户信息;微信官方文档写的还是比较详细的,但是没有代码演示,这里我就用代码演示一下如何实现微信授权登…

空指针的传说——从神秘出生到打败AI败类

大家好,我是数行天下,某C9双985硕士,交叉学科专业背景,具有多元化思维视角,拥有金融科技、互联网等多行业职业经历,现为某头部金融机构高级系统架构师。热爱思考,从过去到未来都有强烈的好奇心&…

LLM-2023:Auto-GPT

从本质上来看,Auto-GPT 是一种自动文本生成技术,它使用深度学习算法来生成类似人类的文本。它基于生成式预训练转换器 ( GPT ) 架构,是一种旨在生成自然语言文本的神经网络。 来源:https://github.com/Significant-Gravitas/Auto-GPT 据开发者介绍,Auto-GPT 是由 GPT-4 …

强烈推荐一个Python可视化模块,简单又好用!

超级无敌干货,第一时间送达!!! 数据可视化动画还在用Excel做? 现在一个简单的Python包就能分分钟搞定! 而且生成的动画也足够丝滑,效果是酱紫的: 这是一位专攻Python语言的程序员开发…

如何在家赚钱?宅在家里做点什么能挣钱

当今社会,由于各种原因,越来越多的人宅在家里,或者说下班之余宅家的空闲时间很多。这个时候呢,大家就会想利用空闲时间做点兼职副业来增收。 在这个信息爆炸的时代,互联网无疑是你实现在家赚钱的理想平台。宅在家里&am…

2023年,知识付费行业呈现哪些发展趋势?

艾媒咨询数据显示,2022年中国知识付费市场规模达1126.5亿元,较2015年增长约70倍,预计将在2025年超过2800亿元。随着疫情形势持续好转,知识付费的“居家红利”或将逐渐消退,但三年来用户的付费求知和在线学习习惯已经养…

一起推动更为广泛的创新发生!AIGC分布式创新联盟#工作小组介绍

AIGC 破圈前行 闯荡星际 分布式 无地域限制 跨领域整合 社区参与~ 游戏化积分激励 开放共享的创新生态 对于时代的声音,你会选择 一探究竟 加入我们 一波正经的自我介绍 AIGC分布式创新联盟由无界社区Mixlab、青年DAO、AIGC涌现小酒馆发起。联盟采取超级个体社群的共…