您的位置：首页 > 理论基础 > 计算机网络

网络爬虫介绍(待完善)

2016-01-28 12:41 549 查看

写在前面的：

最近帮一人朋友写一个快递订单查询的软件，先在网上找各种API接口，好多都是要花钱购买服务才行，后来看到一个新网站“十颗心”不要钱的（估计是在推广期）。

按这个写好软件之后，朋友发现有一些信息没有。就打开了DHL官网给我看需要哪些东西。我才想到怎么不自己去爬呢？后面开始了探索之路。

大神：http://blog.csdn.net/never_cxb/article/details/50527205

爬虫的基本思路如下
1. 根据 Url 获取相应页面的 Html 代码 http://blog.csdn.net/wangxy799/article/details/50563010
2. 利用正则匹配或者 Jsoup 等库解析 Html 代码，提取需要的内容 http://blog.csdn.net/wangxy799/article/details/50598927
3. 将获取的内容持久化到数据库中

4. 处理好中文字符的编码问题，可以采用多线程提高效率

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： java 网络爬虫

相关文章推荐

新的分享

章节导航