—引导语
爬虫,没有一个时代比当前更重视它。一个好的爬虫似乎可以洞穿整个互联网,“来装满自己的胃”。
接上一篇:一文图解爬虫(spider)
博主已初步对爬虫的“五脏六腑”
进行了解剖。虽然俗称“爬虫”
,但窃以为它是一个伟大的发明。在这个数据浪潮的时代,科技、消费、金融、社交、乃至政府、组织类数据,层峦叠嶂,五彩缤纷。那如何拿下这一座座傲然屹立而又路况复杂的数据之峰呢?
好了,我们正式进入本篇主题。
武器库
话说天下武功,唯快不破;又说磨刀不误砍柴工。那么,是否有些得心应手的武器可以用呢?
OF COURSE
- scrapy
- webmagic
- spiderflow
- …
以上凡此种种,皆可为你所用。Java、Python只有语言的差异,没有本质的变化。各位盆友可自由选择。为了更好的解释,博主选择采用spiderflow设计爬虫。
什么?不了解spiderflow?好吧,官网目前疑似被黑,千万别打开。且听博主细细分解。
这里是源码下载地址spiderflow。
组合拳
博主以开源中国为例,进行数据抓取。
1. 选择种子URL
种子即首次抓取的URL:
https://www.oschina.net/blog/widgets/_blog_recommend_list
2.定义request
即请求的header和body。
3.定义response
即请求返回的内容。
4.数据parse
即基于response的数据提取。
5.存储
即数据保存。
6.预览效果
结语
怎么样?通过以上一整套“组合拳”
,是不是对爬虫有了更深刻的理解和印象?
那么接下来,看你的了!
如有疑问或不解的地方,可随时关注或留言,博主有时间会尽力答复。