亚马逊在全球有众多站点(14个),在爬取搜索页面时,存在较多的挑战。为了方便大家沟通学习,现将我们在研发过程中的问题一一列举。对于具体的技术细节,可参考之前的文章亚马逊 - 关键字搜索 - 广告排名 - Citron Advisors
1. 搜索页面不出广告,即无法看到下图中的信息,此时基本是被反爬了。
2. 日本站,奇葩一样的存在,爬虫出广告位的概率极低,这是行业的公认的难点。我们目前已经解决,日本站也能做到100%出广告。
3. 爬虫的稳定性和性能,因网络原因,国内抓取亚马逊基本都存在慢和不稳定的情况。具体要根据站点的情况,在全球各地分布式采集。