获取图片主要就是通过必应图片页面控制台的元素,确认图片和标题在哪个类中(浏览器 F12)
引入依赖
这里需要引入两个依赖 jsoup 和 hutool
maven依赖网站地址:Maven Repository: Search/Browse/Explore (mvnrepository.com)
挑选使用最多的版本即可
hutool依赖
<!-- https://mvnrepository.com/artifact/cn.hutool/hutool-all -->
<dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.8.27</version>
</dependency>
jsoup 依赖
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.3</version>
</dependency>
查看浏览器图片的位置
这里 murl 和 turl 都可以访问,选取一个即可。
使用 jsoup 爬取
1. 首先从 jsoup 官方文档得到示例代码:jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety
Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {log("%s\n\t%s", headline.attr("title"), headline.absUrl("href"));
}
2. 完整代码
public class CrawlerTest {public static void main(String[] args) throws IOException {//搜索词,可以替换成你想搜索的词,前端传入System.out.println("请输入想要搜索的图片:");Scanner scanner = new Scanner(System.in);String search = scanner.nextLine();//拼接想要搜索的图片String url = String.format("https://cn.bing.com/images/search?q=%s&first=1", search);/*简单来说,jsoup 就是爬虫,通过 jsoup 提供的 api,可以方便的获取到网页的 html 结构,然后通过解析 html 结构,获取到我们想要的数据connect 方法是 jsoup 提供的连接网页的方法,传入 url 即可get 方法是 jsoup 提供的获取网页内容的方法,返回值是 Document 类型*/Document doc = Jsoup.connect(url).get();/** 从文档中获取到所有的图片元素,通过选择器 ".iuscp.isv" 获取到所有的图片元素* .iuscp.isv 表示的是图片元素,是上一步通过浏览器的控制台找到的* 然后遍历这些元素,获取到图片的地址,图片名称等*/Elements elements = doc.select(".iuscp.isv");for (Element element : elements) {//获取到图片的地址String murl = element.select(".iusc").get(0).attr("m");/*获取到的图片地址是 Json 格式通过 Hutool 提供的 JSONUtil 工具类,将 Json 格式转换成 Map 格式然后通过 Map 获取到图片的地址注意:Hutool 是一个 Java 工具包,它封装了 Java 开发中常用的方法,*/Map<String, Object> map = JSONUtil.toBean(murl, Map.class);String fmurl = (String) map.get("murl");System.out.println(fmurl);/*获取图片名称和图片地址同理通过 element.select(".inflnk") 获取到图片名称元素,通过 attr("aria-label") 获取到图片名称*/String pName = element.select(".inflnk").get(0).attr("aria-label");System.out.println(pName);}}
}
结果展示
随便选取一个地址打开
完成。