您的位置：首页 > 理论基础 > 计算机网络

Android实战 Jsoup实现网络爬虫,糗事百科项目的起步

2017-05-02 11:10 507 查看

原文链接：http://mp.weixin.qq.com/s?__biz=MzAxMTI4MTkwNQ==&mid=2650822053&idx=1&sn=3600e1e040be990976fb7139a2d31151&chksm=80b7813bb7c0082d0b551b9633adce1748a575ce4bf0e64a5317af4aed7b455ae8780aee508a&mpshare=1&scene=23&srcid=0502D0k33qWZcbqvc3760WDq#rd

每日推荐

在Android 7.0（Nougat）推出了新的应用签名方案APK Signature Scheme v2后，之前快速生成渠道包的方式很多已经行不通了（或者需要关闭该选项），

美团已经针对新的签名方案APK Signature Scheme v2，提出了新一代渠道生成工具并进行详细深入的介绍。

文章：
http://tech.meituan.com/android-apk-v2-signature-scheme.html
开源项目：
https://github.com/Meituan-Dianping/walle
作者

本文由Hensen_投稿。

Hensen_的博客地址：
http://blog.csdn.net/qq_30379689
<
147a5
br style="margin:0px;padding:0px;" />
1

前言

对于Android初学者想要做项目时，最大的烦恼是什么？毫无疑问是数据源的缺乏，当然可以选择第三方接口提供数据，也可以使用网络爬虫获取数据，这样就不用第三方数据作为支持。

本来是打算爬一些购物网站的数据，由于他们的反爬做得好，所以没办法爬到数据，只能爬取糗事百科的数据，或许聪明的你会想到可以高仿个糗事百科作为自己的练手项目，利用jsoup是完全没问题的。

jsoup的学习需要结合前端的基础知识，如果你学过JS（Android开发者需要掌握一点JavaScript了），那么你可以自己完全不用看文档的情况下，使用该框架，因为其设计与JS的使用几乎相同，废话不多说，开车啦。

2

jsoup的简介和使用

Jsoup的简介

使用项目原话：jsoup是一个Java库来处理实际的HTML。它提供了一个非常方便的API来提取和操纵数据,使用最好的DOM,CSS和jQuery-like方法

项目地址：
https://github.com/jhy/jsoup 中文文档：
http://www.open-open.com/jsoup/

Jsoup的配置

jsoup的配置很简单，需要在gradle中添加以下依赖

compile 'org.jsoup:jsoup:1.10.2'

由于jsoup需要获取网络数据，所以记得添加网络权限

<uses-permission android:name="android.permission.INTERNET" />

Jsoup的使用

（1）获取HTML

jsoup提供两种网络请求，get和post，使用代码也及其简单，我们首先爬取糗事百科首页的HTML。注意：由于是网络请求操作，必须放在子线程中运行，否则4.4以上的版本会报错。

① get方式（若图片无法显示，请跳转原文链接：http://blog.csdn.net/qq_30379689/article/details/55005796）

② post方式

这里对post的参数介绍一下

connect：设置连接的Url

data：设置post的键值对数据

userAgent：设置用户代理（请求头的东西，可以判断你是PC还是Mobile端）

cookie：设置缓存

timeout：设置请求超时

post：发送post请求

既然已经获取HTML的Document对象了，接下来就是分析Html元素的时候了

（2）获取Html元素

① 网页端

以糗事百科为例子，我们查看糗事百科首页的数据对应的Html元素是什么，我们可以通过F12，找到对应的Html元素

可以看到一个a标签就是文章详情的内容，我们可以通过这个a标签的class=”contentHerf”作为唯一标识来获取该链接，获取之后，继续爬取详情页的文章详细内容，所以我们通过爬取的a标签的链接进入该文章的详情页

当然也有一些详情页有图片的，我们可以通过图片的的class=”thumb”作为唯一标识来爬取图片里面的链接

由于糗事百科采用分页加载的情况，我们需要在爬取完第一张内容后，接着爬取第二章的内容，下面是糗事百科的分页Url的规则，很简单，我们可以通过一个循环就可以了。

http://www.qiushibaike.com/8hr/page/1/ http://www.qiushibaike.com/8hr/page/2/ http://www.qiushibaike.com/8hr/page/3/ http://www.qiushibaike.com/8hr/page/4/ http://www.qiushibaike.com/8hr/page/5/

好了，分析完网页端之后，就应该在我们的Android端采用代码，将上面的步骤实现出来了。

（3）Android端实现

通过上面的分析后，可以总结我们需要实现的步骤有：

爬取主页的详情页url

进入详情页爬取内容和图片

循环爬取第二页、第三页…

聪明的你，可能会想到第四步第五步…

封装Bean对象

使用ListView填充内容

爬取日期、作者、评论等内容完善项目

1）爬取主页的详情页url

爬取主页的url可以通过a标签的class=”contentHerf”，我们通过jsoup的属性选择器来实现，这里会用到css知识，jsoup中文文档也有很详细的介绍

这里对使用到的对象进行介绍

Document：相当于一个Html文件

Elements：相当于一个标签的集合

Element：相当于一个标签

这里要注意Elements与Element的toString()方法和text()方法

toString()：打印出来的是标签的Html内容

text()：打印出来的是标签对应的文本内容

css选择器

select()：获取符合属性选择器要求的标签内容

或getElementById：获取符合ID选择器要求的标签内容

或getElementsByTag：获取符合Tag选择器要求的标签内容

2）进入详情页爬取内容和图片

这段代码也相当简单，这里就不多解释了

3）循环爬取第二页、第三页…

这里只需要嵌套一个循环进去就可以了，完整代码如下

4）当然，我们爬取到的内容之后，毫无疑问就是要封装成对象，通过ArrayList存储起来，这样你的数据源就解决了

public class Xiaohua {
   private String content;
   private String title;
   private String url;
   private String userName;
   private String date;
}

5）后面爬取作者、日期、评论等信息就由你们去练习了，然后界面一仿，项目就出来了

（4）爬取结果

结语

网络爬虫虽然带来了很多数据源的问题，但很多网站都已经通过一些技术实现反爬虫的效果了，所以大家还是以学习jsoup为主，不管是Android端还是Web端jsoup的用处很广泛，所以掌握起来是必须的，听说豆瓣和知乎都可以爬出来哦，想做学习项目的同学可以去试试哦。

注意：该技术仅作为学习使用，商业化使用注意版权问题。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航