首页 >> 手游攻略

Javaparser教师Big

大家好,Javaparser教师Big相信很多的网友都不是很明白,包括用 Java 拿下 HTML 分分钟写个小爬虫也是一样,不过没有关系,接下来就来为大家分享关于Javaparser教师Big和用 Java 拿下 HTML 分分钟写个小爬虫的一些知识点,大家可以关注收藏,免得下次来找不到哦,下面我们开始吧!

本文适合有Java基础知识的人群

本文作者:HelloGitHub-秦人

HelloGitHub推出的《讲解开源项目》系列,今天给大家带来一款开源Java版一款网页元素解析框架——jsoup,通过程序自动获取网页数据。

项目源码地址:https://github.com/jhy/jsoup

一、项目介绍

jsoup是一款Java的HTML解析器。可直接解析某个URL地址的HTML文本内容。它提供了一套很省力的API,可通过DOM、CSS以及类似于jQuery选择器的操作方法来取出和操作数据。

jsoup主要功能:

从一个URL、文件或字符串中解析HTML。使用DOM或CSS选择器来查找、取出数据。可操作HTML元素、属性、文本。二、使用框架2.1准备工作掌握HTML语法Chrome浏览器调试技巧掌握开发工具idea的基本操作2.2学习源码

将项目导入idea开发工具,会自动下载maven项目需要的依赖。源码的项目结构如下:

快速学习源码是每个程序员必备的技能,我总结了以下几点:

阅读项目ReadMe文件,可以快速知道项目是做什么的。概览项目pom.xml文件,了解项目引用了哪些依赖。查看项目结构、源码目录、测试用例目录,好的项目结构清晰,层次明确。运行测试用例,快速体验项目。2.3下载项目

gitclonehttps://github.com/jhy/jsoupn2.4运行项目测试代码

通过上面的方法,我们很快可知example目录是测试代码,那我们直接来运行。注:有些测试代码需要稍微改造一下才可以运行。

例如,jsoup的Wikipedia测试代码:

publicclassWikipedia{npublicstaticvoidmain(String[]args)throwsIOException{nDocumentdoc=Jsoup.connect("http://en.wikipedia.org/").get();nlog(doc.title());nnElementsnewsHeadlines=doc.select("#mp-itnba");nfor(Elementheadline:newsHeadlines){nlog("%s\n\t%s",headline.attr("title"),headline.absUrl("href"));n}n}nnprivatestaticvoidlog(Stringmsg,String...vals){nSystem.out.println(String.format(msg,vals));n}n}n

说明:上面代码是获取页面(http://en.wikipedia.org/)包含(#mp-itnba)选择器的所有元素,并打印这些元素的title,herf属性。维基百科国内无法访问,所以上面这段代码运行会报错。

改造后可运行的代码如下:

publicstaticvoidmain(String[]args)throwsIOException{nDocumentdoc=Jsoup.connect("https://www.baidu.com/").get();nElementsnewsHeadlines=doc.select("a[href]");nfor(Elementheadline:newsHeadlines){nSystem.out.println("href:"+headline.absUrl("href"));n}n}n三、工作原理

Jsoup的工作原理,首先需要指定一个URL,框架发送HTTP请求,然后获取响应页面内容,然后通过各种选择器获取页面数据。整个工作流程如下图:

以上面为例:

3.1发请求

Documentdoc=Jsoup.connect("https://www.baidu.com/").get();n

这行代码就是发送HTTP请求,并获取页面响应数据。

3.2数据筛选

ElementsnewsHeadlines=doc.select("a[href]");n

定义选择器,获取匹配选择器的数据。

3.3数据处理

for(Elementheadline:newsHeadlines){nSystem.out.println("href:"+headline.absUrl("href"));n}n

这里对数据只做了一个简单的数据打印,当然这些数据可写入文件或数据的。

四、实战

获取豆瓣读书->新书速递中每本新书的基本信息。包括:书名、书图片链接、作者、内容简介(详情页面)、作者简介(详情页面)、当当网书的价格(详情页面),最后将获取的数据保存到Excel文件。

目标链接:https://book.douban.com/latest?icn=index-latestbook-all

4.1项目pom.xml文件

项目引入jsoup、lombok、easyexcel三个库。

<?xmlversion="1.0"encoding="UTF-8"?>n<projectxmlns="http://maven.apache.org/POM/4.0.0"nxmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"nxsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd">n<modelVersion>4.0.0</modelVersion>nn<groupId>org.example</groupId>n<artifactId>JsoupTest</artifactId>n<version>1.0-SNAPSHOT</version>n<properties>n<maven.compiler.target>1.8</maven.compiler.target>n<maven.compiler.source>1.8</maven.compiler.source>n</properties>n<dependencies>n<dependency>n<groupId>org.jsoup</groupId>n<artifactId>jsoup</artifactId>n<version>1.13.1</version>n</dependency>n<dependency>n<groupId>org.projectlombok</groupId>n<artifactId>lombok</artifactId>n<version>1.18.12</version>n</dependency>n<dependency>n<groupId>com.alibaba</groupId>n<artifactId>easyexcel</artifactId>n<version>2.2.6</version>n</dependency>n</dependencies>n</project>n4.2解析页面数据

publicclassBookInfoUtils{nnpublicstaticList<BookEntity>getBookInfoList(Stringurl)throwsIOException{nList<BookEntity>bookEntities=newArrayList<>();nDocumentdoc=Jsoup.connect(url).get();nElementsliDiv=doc.select("#content>div>div.article>ul>li");nfor(Elementli:liDiv){nElementsurls=li.select("a[href]");nElementsimgUrl=li.select("a>img");nElementsbookName=li.select("div>h2>a");nElementsstarsCount=li.select("div>p.rating>span.font-small.color-lightgray");nElementsauthor=li.select("div>p.color-gray");nElementsdescription=li.select("div>p.detail");nnStringbookDetailUrl=urls.get(0).attr("href");nBookDetailInfodetailInfo=getDetailInfo(bookDetailUrl);nBookEntitybookEntity=BookEntity.builder()n.detailPageUrl(bookDetailUrl)n.bookImgUrl(imgUrl.attr("src"))n.bookName(bookName.html())n.starsCount(starsCount.html())n.author(author.text())n.bookDetailInfo(detailInfo)n.description(description.html())n.build();n//System.out.println(bookEntity);nbookEntities.add(bookEntity);n}nreturnbookEntities;n}n/**n*n*@paramdetailUrln*@returnn*@throwsIOExceptionn*/npublicstaticBookDetailInfogetDetailInfo(StringdetailUrl)throwsIOException{nnDocumentdoc=Jsoup.connect(detailUrl).get();nElementscontent=doc.select("body");nnElementsprice=content.select("#buyinfo-printed>ul.bs.current-version-list>li:nth-child(2)>div.cell.price-btn-wrapper>div.cell.impression_track_mod_buyinfo>div.cell.price-wrapper>a>span");nElementsauthor=content.select("#info>span:nth-child(1)>a");nBookDetailInfobookDetailInfo=BookDetailInfo.builder()n.author(author.html())n.authorUrl(author.attr("href"))n.price(price.html())n.build();nreturnbookDetailInfo;n}n}n

这里的重点是要获取网页对应元素的选择器

例如:获取li.select("div>p.color-gray")中div>p.color-gray是怎么知道的。

使用chrome的小伙伴应该都猜到了。打开chrome浏览器Debug模式,Ctrl+Shift+C选择一个元素,然后在html右键选择Copy->Copyselector,这样就可以获取当前元素的选择器。如下图:

4.3存储数据到Excel

为了数据更好查看,我将通过jsoup抓取的数据存储的Excel文件,这里我使用的easyexcel快速生成Excel文件。

Excel表头信息

@Datan@BuildernpublicclassColumnData{nn@ExcelProperty("书名称")nprivateStringbookName;nn@ExcelProperty("评分")nprivateStringstarsCount;nn@ExcelProperty("作者")nprivateStringauthor;nn@ExcelProperty("封面图片")nprivateStringbookImgUrl;nn@ExcelProperty("简介")nprivateStringdescription;nn@ExcelProperty("单价")nprivateStringprice;n}n

生成Excel文件

publicclassEasyExcelUtils{nnpublicstaticvoidsimpleWrite(List<BookEntity>bookEntityList){nStringfileName="D:\\devEnv\\JsoupTest\\bookList"+System.currentTimeMillis()+".xlsx";nEasyExcel.write(fileName,ColumnData.class).sheet("书本详情").doWrite(data(bookEntityList));nSystem.out.println("excel文件生成完毕...");n}nprivatestaticList<ColumnData>data(List<BookEntity>bookEntityList){nList<ColumnData>list=newArrayList<>();nbookEntityList.forEach(b->{nColumnDatadata=ColumnData.builder()n.bookName(b.getBookName())n.starsCount(b.getStarsCount())n.author(b.getBookDetailInfo().getAuthor())n.bookImgUrl(b.getBookImgUrl())n.description(b.getDescription())n.price(b.getBookDetailInfo().getPrice())n.build();nlist.add(data);n});nreturnlist;n}n}n4.4最终展示效果

最终的效果如下图:

以上就是从想法到实践,我们就在实战中使用了jsoup的基本操作。

完整代码地址:https://github.com/hellowHuaairen/JsoupTest

五、最后

JavaHTMLParser库:jsoup,把它当成简单的爬虫用起来还是很方便的吧?

为什么会讲爬虫?大数据,人工智能时代玩的就是数据,数据很重要。作为懂点技术的我们,也需要掌握一种获取网络数据的技能。当然也有一些工具Fiddler、webscraper等也可以抓取你想要的数据。

教程至此,你应该也能对jsoup有一些感觉了吧。编程是不是也特别有意思呢?参考我上面的实战案例,有好多网站可以实践一下啦~欢迎在评论区晒你的实战。

文章分享结束,Javaparser教师Big和用 Java 拿下 HTML 分分钟写个小爬虫的答案你都知道了吗?欢迎再次光临本站哦!



本文由欣欣吧手游攻略栏目发布,感谢您对欣欣吧的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人站长或者朋友圈,但转载请说明文章出处“Javaparser教师Big

标签:
japaneseren54成熟
« 上一篇 2023-10-17