一.同步加载与异步加载
1.1同步加载定义:
页面所有内容一起加载出来,当某一个数据加载有问题,整个页面就不会加载出来(如HiFiNi音乐网站),所以又叫阻塞模式
1.2爬取步骤:
看netword->document
2.1异步加载定义:
数据是分开加载的,当某一份数据有异常时,不影响其他数据的加载呈现,所以又叫非阻塞模式
2.2爬取步骤:
看network->XHR/fetch
3.区分:
看左上角的刷新按钮:
1.动了:同步
2.没动:异步
二.网页数据返回方式
1.直接返回网页文本--HTML
2.Ajax加载 --json
3.JavaScript渲染--json
三.爬虫步骤
1.检查网页是同步加载还是异步加载
我们要实战的网页url:HiFiNi - 音乐磁场,经检测在翻页时,左上角的刷新按钮动了,所以是同步加载,所以我们要从network中的document获取我们要爬取的内容
2.实战
1.右击网页,点击检查
2.点开network中的doc,并点击左上角的刷新按钮,点开index-1.htm文档
3.在headers中看到Request url,Request Method 在看Response