作为一名“数据狗”和“码字狗”,手机端APP的数据爬取应该是一项基础技能。其实随着手机的广泛使用,不管是谁,懂点爬取的知识都不吃亏,毕竟“技多不压身”嘛。今天分享的爬取工具与步骤非常简单,数据小白也能很快上手。
此文几个关键点:针对IOS手机应用、以“亲子年票”APP为例、抓包工具为fiddler(不用太了解其专业含义,只要知道它可用来抓包就行~)。
一、下载fiddler并且安装(电脑端)
1.fiddler官方链接:
https://www.telerik.com/download/fiddler
2.需要填写邮箱,照着网站的引导操作;下载后直接常规安装。
二、在fiddler中的两点设置(电脑端)
1.设置允许抓取HTTPS信息包
打开下载好的fiddler,Tools -> Options,然后再HTTPS的工具栏下勾选Decrypt HTTPS traffic,在新弹出的选项栏下勾选Ignoreserver certificate errors。
2.设置允许外部设备发送HTTP/HTTPS到fiddler
Tools-> Options,在Connections选项栏下勾选Allow remote computers to connect,并记住上面的端口号8888,后面会使用到。
三、得到网络的ip地址(电脑端)
1.注意:需要让电脑和手机处于同一个网络下,可使用wifi或者手机热点等来完成。
2.假如电脑和手机已经处于同一个网络之下,我们需要知道此网络的ip地址,可以在命令行(点击开始--运行--输入CMD--回车)输入ipconfig获得。
四、设置手机端(手机端操作)
1.打开手机找到手机wifi网络,并修改该wifi网络详情。
2.选择当前连接网络的更多信息,在苹果手机中是靠右边的一个叹号。
3.在最下面你会看到HTTP代理的选项,点击进入;进入后,填写上面记住的ip地址和端口号,确定保存。
五、下载fiddler安全证书并且证书信任(手机端操作)
1.下载fiddler证书
在手机上打开浏览器输入一个上面ip地址和端口号组成的url:http://192.168.1.215:8888,然后点击FiddlerRoot certificate下载fiddler证书。
2.证书信任
IOS不同系统对应的证书信任方法不同,IOS10.3/ISO11系统证书信任时设置路径为:设置--通用--关于本机--证书信任设置--(对应证书的开关)。
六、手机端抓包测试(手机端操作)
1.以“北京亲子年票”APP为例(小J曾赖此APP数据码字),爬取下图数据。
2.在手机上打开APP,在电脑端可以看到访问数据,右边是数据包申请得到的信息。爬取的数据可以保存成txt格式文件做后续处理。
另外,小J在做数据分析过程中的体会:爬取数据较易,整理数据较繁!
需要将爬取的数据整理成结构化数据,这其中可以使用的工具包括EXCEL、python、R语言等,有机会小J再一一发文说明,可关注公众号持续关注哟。
想了解更多敬请关注订阅号