为什么80%的码农都做不了架构师?>>>
学习PHP+MySQL制作WEB应用有一阵子了,没有上过学所以只能学习到CURD的地步。
最近对国产美女图片、私房写真特别感兴趣,什么周妍希、刘飞儿、李可可、推女郎我一个都不知道~~
经常调查我发现一个叫妹子图的站资源多、人气高、收录好,所以就扒它了~ 主要扒个页面样式包括PC和移动 ~~
除了美女图片我还需要保存 title 和 tag 信息,再加一个 href 字段用于防止重复抓取,所以数据表 meizitu 应该是这样的:
id (int 10) 自增
title (varchar100)
tag (varchar100)
href (varchar100)
is_post (int3)
tag 字段用于保存类似筱慧icon,易阳,萌宝儿,巨乳,丝袜等等标签,支持多个标签但不建议超过三个。
首先我决定抓取妹子图的性感写真栏目,第一步 http 获取列表页 html 源代码,建议使用CURL并设置referer和UA反仿盗链。
使用 simple_html_dom 这个开源类库解析 html 源代码,非常容易就能获取美女套图的标题和URL链接,用法类似 jQuery 非常牛逼克拉死。
第二步,采集完列表页地址和标题后就需要获取美女图片(本地化)和图片相关信息(标签、发布时间、人气)。同样使用 http 请求下载后在本地建立文件夹名称与数据的 id 值对应别称目录ID号,这样方便管理美女图片日后发布时更容易找到她们。
第三步,将整理好的美女图片发布到自己的WEB应用,记得一定要重新设置标题和其它信息。
第四步,实现自动发布(待完成)目前主要遇到的问题就是如何通过原始标题生成一个新的标题,不知道有什么可以借鉴的项目。