如果只想采集网址、图片地址等HTML标签属性的值,要怎么采集呢?
可以使用简数采集器,有对应的快捷提取方式,一键即可转换为采集网址、采集图片地址方式,非常方便快捷。
也可以自行设置高级提取,提取Html标签对应任意属性的值,非常强大。
目录
1. 快速采集正文里的网址或图片地址
2. 采集Html标签任意属性的值
1. 快速采集正文里的网址或图片地址
在简数采集器的某个任务,点开详情提取器配置页面,点击对应字段的字段数据处理,再点击 “高级提取” 选项,勾上 “只获取网址” 或者 “只采集图片链接” ,最后保存即可。
只获取网址示例:
只采集图片链接示例:
2. 采集Html标签任意属性的值
也是在简数采集器的某个任务,点开详情提取器配置页面,点击对应字段的字段数据处理,再点击 “高级提取” 选项 --》提取值类型选择 “节点属性” ,属性名填写要采集的HTML标签属性名称,保存完成配置。
例如采集meta标签的content属性设置如下图