java爬取闲鱼商品信息(一)

闲鱼真是一个很神奇的地方,= =能让我等学生狗不用花很多钱就能体验科技的乐趣,当然,前提是别翻车。

好了,这当然是题外话,这阵子总结了自己学习的一些技能,就写一个对闲鱼的数据抓取来练练手。

预计达到的目标:第一步,将闲鱼上发布的商品信息爬取到本地。

                           第二步,实现关键词价格域提醒,比如设置想要找一个5000以下的IPHONE X,可爱的爬虫在闲鱼抓信息的时候,当发现匹配的商品的时候,就会给你疯狂打call,好吧,给你发邮件之类的。


首先,我们看一下闲鱼闲置商品的网址:

https://s.2.taobao.com/list/list.htm?spm=2007.1000337.0.0.6e0f2979exfsD7&oon=10&st_trust=1&ist=1


样子呢是这样的


可以看出来女装鞋子什么的占了很大一部分,= = 看来都是女装大佬。

好了,从哪入手呢,当然是从这么多的分类入手了。我们都可以很轻松的发现,每个分类的链接相似度很高,大家可以自己看看。

分类的不同主要是取决于URL的catid参数。

很明显,URL和分类名称形成了一中key-value的对应关系,在程序执行过程中我们可以将其存储在hashmap中

由于hashmap的特性,就算抓取算法有问题导致重复也不会产生很大影响。

我们查看一下网页的源码,


很容易发现<li>标签里保存的是链接和分类名信息。

获取网页源码后,(如果不知道怎么获取的话,请看我之前写的爬微博热搜的文章)

我们可以利用正则表达式来把需要的信息提取出来。

如下

public static HashMap<String, String> get_list(String text){HashMap<String, String> list=new HashMap<String,String>();//url,类别String rule="<a href=\"//s.2.taobao.com/list/list.htm\\?catid=(.*?)&oon=10&st_trust=1&ist=1\" title=\"(.*?)\">(.*?)</a>";Pattern pattern =Pattern.compile(rule);Matcher matcher = pattern.matcher(text);    while (matcher.find()) {  list.put("https://s.2.taobao.com/list/list.htm?catid="+matcher.group(1)+"&oon=10&st_trust=1&ist=1", matcher.group(3));}  return list;}

这样就返回了一个hashmap,key是url,value是分类名。

这样我们需要爬取遍历的起点队列就很明确了,很大的简化了程序。

接下篇。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/56333.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络爬虫淘宝api,获得淘宝app商品详情原数据

item_get_app-获得淘宝app商品详情原数据 注册测试 请求参数 请求参数&#xff1a;num_iid520813250866 参数说明&#xff1a;num_iid:淘宝商品ID 名称类型必须描述keyString是调用key&#xff08;必须以GET方式拼接在URL中&#xff09;secretString是调用密钥api_nameStr…

闲鱼搜索相关性——体验与效率平衡的背后

背景 闲鱼搜索是闲鱼APP最大的成交场景入口&#xff0c; 成交归因中搜索占一半以上&#xff0c;所以提高成交效率是工程和算法迭代优化的主要目标&#xff0c;然而只以效率为最终的衡量标准不但会影响搜索的质量阻碍成交&#xff0c;还会恶化整个平台的长期生态建设无法成长&am…

闲鱼唤端的背后

背景 众所周知&#xff0c;想要DAU稳步上升&#xff0c;端外引流是一个必不可少的手段&#xff0c;常见的引流方式有&#xff1a;广告投放、分享回流、流量互换等&#xff0c;而他们也有着一个共同的技术问题&#xff0c;就是唤端&#xff0c;本文着重分享一下唤端的相关知识以…

闲鱼最新选品技巧,快速帮你找到爆款!

在星球里面&#xff0c;每天可以获得一些数据&#xff0c;主要是闲鱼热销品&#xff0c;稳定品类&#xff0c;还有一些三方的工具。 户外最近是个热品类&#xff0c;基本很多爆款都是从这里产生的&#xff0c;从前段时间分享的帐篷&#xff0c;板凳&#xff0c;烧烤架&#xff…

闲鱼商品理解数据分析平台——龙宫

引言 闲鱼是一个以C2C为主的平台&#xff0c;区别于B端的用户&#xff0c;C端卖家在发布商品时更倾向于图描述的轻发布模式&#xff0c;对于补充商品的结构化信息往往执行力和专业程度都不高&#xff0c;这为我们的商品理解带来了很大的困难。为了能够在发布侧获得更多的商品结…

闲鱼API接口,如何获取原生数据

闲鱼平台API&#xff0c;item_app 获得闲鱼原生数据 num_iid:闲鱼商品ID 点击获取key和secret* 当你有了账号时候点到测试页面&#xff0c;下面是我测试的结果 返回参数 Result Object: --------------------------------------- {"item": {"all_result&q…

闲鱼榜单数据

昨天有个客户给我看了这个页面&#xff0c;感觉挺有意思的&#xff1a;闲鱼榜单。 系统集成了各个行业&#xff0c;还推荐了用户可能感兴趣的行业的关键词&#xff0c;然后将行业内的卖家做一个排行。 比如潮玩行业的排名就是这样的&#xff1a; 然后就临时做了个接口&#xff…

闲鱼消息发展回顾

引言 闲鱼消息系统经过几代开发的建设&#xff0c;目前稳定的支撑亿级消息体量。在消息系统建设过程中&#xff0c;我们经历了从简单到复杂&#xff0c;从困扰到破局&#xff0c;每一次的技术改变都是为了更好的解决当下业务面临的问题。“忆昔午桥桥上饮&#xff0c;坐中多是豪…

电商搜索里都有啥?详解闲鱼搜索系统(长文)

搜索是电商平台的核心流量入口&#xff0c;承载着平台主要的成交引导、意图收敛、活动投放。一个稳定、高效、可扩展的搜索系统是电商平台得以生存发展的基石。本文探讨如何构建完善的商品搜索系统&#xff0c; 并根据闲鱼二手交易的差异化特性介绍闲鱼搜索系统的时效性优化。 …

闲鱼关键词,实现闲鱼APP的特定关键字商品检索

最近碰上个需求 需要根据关键词检索出所有商品&#xff0c;可以指定价格范围&#xff0c;地点&#xff0c;和最新排序&#xff0c;去发现有某位大佬的一个项目刚好符合这个需求。放到这里分享一下给大家。因为系统不便公开需要的可以找我 任务设置页面 可以设置关键词&#xf…

闲鱼商品选投实时性优化

马赫是闲鱼的选品和投放系统&#xff0c;闲鱼业务中多数商品都是孤品即单库存商品&#xff0c;所以商品的实时变更需要即刻反馈到选品和投放链路中&#xff0c;为了满足业务诉求马赫设计之初就把实时性作为最重要的技术目标&#xff0c;随着系统的运行数据的膨胀实时性也遇到了…

闲鱼已售商品信息查询系统。手搓市场定价/行情查询利器

前段时间自己手搓出来一个闲鱼已售商品查询接口&#xff0c;最近有时间&#xff0c;就把接口搞成了软件。 软件作用&#xff1a; 可以方便地查询闲鱼已经成交的商品信息&#xff0c;包括成交价格、成交时间、挂单后多少天成交&#xff08;成交效率&#xff09;、以及商品信息&a…

产品优化策略,有效提升产品自身竞争力,我赌你一定没用过

新媒体时代自移动互联网诞生之日便处于不断变化的事态之中&#xff0c;为了迎合时代发展要求&#xff0c;大数据、云计算等移动互联网技术获得了迅猛发展&#xff0c;智能手机也已经成为人们生活、工作中不可或缺的元素。在智能手机中&#xff0c;各种类型的APP占据了智能手机很…

2022届计算机毕业论文(设计)学生选题参考合集推荐收藏

大四的同学马上要开始毕业设计啦&#xff0c;大家做好准备了没&#xff01; 给大家详细整理了计算机毕设最新选题&#xff0c;对选题有任何疑问&#xff0c;都可以问我哟~ 1基于JavaEE的问卷调查系统的设计与实现2基于SSM的山西工商学院校园跑腿代取系统的设计与实现3基于Web的…

计算机毕业论文选题推荐|软件工程|信息管理|数据分析|系列一

文章目录 导文题目导文 计算机毕业论文选题推荐|软件工程|信息管理 (***语言)==使用其他任何编程语言 例如:基于(***语言)门窗账务管理系统的设计与实现 得到:基于JAVA门窗账务管理系统的设计与实现 基于vue门窗账务管理系统的设计与实现 等等 题目 基于requests多线程…

湖北专升本数据结构

绪论 1.线性结构:是一一对应的关系。 2.集合结构:相当于一个班级&#xff0c;一个圈里面有很多。 3.“树”的数据结构:一对多的关系。 4.“图”的数据结构:多对多的关系。 名词解释 数据:是客观事实的符号表示&#xff0c;是所有能输入到计算机的符号的名称。 数据元素:…

英语四六级过了专升本可以加分吗?天津专升本英语四级加分取消

2021-2022年天津专升本考试中&#xff0c;全国大学英语四六级过了&#xff0c;那么天津专升本考试可以加分吗&#xff1f;天津专升本英语四级加分是不是与2020年取消了&#xff1f; 全国大学英语四、六级考试成绩的话题&#xff0c;又双叒叕登上了微博热搜 每到查分时&#xff…

专升本英语6套学习笔记和三套模拟试卷

第一部分 词汇背诵 1. literature [lit(ə)rətʃə] n. 文学&#xff1b;文献 I love literature since I was young. 从小我就热爱文学。 There is now a vast literature on the subject. 现在有关这个学科的文献特别多。 2. garment [gɑ:m(ə)nt] n. 衣服 The garm…

江苏专转本英语提分技巧

说专转本得英语者得天下&#xff0c;英语是所有专转本专业类别的必考科目&#xff0c;也是拉分科目。之前有转本人问老师&#xff0c;基础不好&#xff0c;短时间怎么把分数提上去&#xff1f;综合来看&#xff0c;“阅读理解”是最好提分的一个题型。“阅读理解”是很多省份英…