标题
- 1 统计要收集的关键词,制作一个文件夹
- 2 爬取每一页的内容
- 3 爬取标题和内容
- 4 如果内容可以被查看,爬取评论内容
- 5 将结果进行汇总,并且每个帖子保存为一个json文件,具体内容
- 6 总结
1 统计要收集的关键词,制作一个文件夹
例如,我要收集旅游相关的,就收集:
旅游、旅行、旅游攻略,这些词,做成一个txt文件。
用一个浏览器登录上小红书账号,然后记录写cookies,例如:
2 爬取每一页的内容
主要使用request,js模块,将爬取的内容保存为res,里面包含一页20条数据。
info = re.sub(r'"page":".*?"', f'"page":"{page}"', info)ret = js.call('get_xs', api, info, cookies["a1"]