采集文章数据,有时候会遇到一些不需要采集的数据,或者只想采集一些特定的数据,可以使用简数采集器的内容过滤功能,对采集的数据进行筛选,只有符合的数据才采集保留。
可以用于过滤掉一些广告、专题、网站首页等无效数据,也可以监控采集指定的文章数据。
使用方法:
目录
1. 过滤内容为空的数据
2. 字数筛选(内容长度筛选)
3. 关键词筛选
3-1. 关键词出现保留数据
3-2. 关键词出现删除数据
1. 过滤内容为空的数据
可以指定某个字段采集内容为空时,这条数据就不采集入库,过滤掉不保留了。
2. 字数筛选(内容长度筛选)
可以根据内容长度(字符数量计算)是否采集保留,可以设置小于、等于、大于、不等于多少字符时,过滤不保留该数据。
3. 关键词筛选
可以指定关键词筛选,当内容中出现对应的关键词,此数据采集保留或者过滤不保留。
3-1. 关键词出现保留数据
在【内容必须包含】处填写关键词,如果在该数据对应字段的内容中出现了,就采集保留该数据。
多个关键词用分隔符#_#
隔开(例:关键词1#_#
关键词2#_#
关键词3),如果出现其中任何一个关键词,则保留此数据。
3-2. 关键词出现删除数据
在【内容不得包含】处填写关键词,如果在该数据对应字段的内容中出现了,就不采集过滤掉该数据。
多个关键词用分隔符#_#
隔开(例:关键词1#_#
关键词2#_#
关键词3),如果出现其中任何一个关键词,则不采集删掉此数据。
这样就可以完成对数据的筛选过滤,简数采集器的内容过滤功能可以过滤掉一些广告或专题页面,或者监控采集一些指定的文章数据。