您的位置:首页 > 理论基础 > 计算机网络

网络爬虫介绍(待完善)

2016-01-28 12:41 549 查看
写在前面的:

最近帮一人朋友写一个快递订单查询的软件,先在网上找各种API接口,好多都是要花钱购买服务才行,后来看到一个新网站“十颗心”不要钱的(估计是在推广期)。

按这个写好软件之后,朋友发现有一些信息没有。就打开了DHL官网给我看需要哪些东西。我才想到怎么不自己去爬呢?后面开始了探索之路。

大神:http://blog.csdn.net/never_cxb/article/details/50527205

爬虫的基本思路如下 
1. 根据 Url 获取相应页面的 Html 代码  http://blog.csdn.net/wangxy799/article/details/50563010
2. 利用正则匹配或者 Jsoup 等库解析 Html 代码,提取需要的内容 http://blog.csdn.net/wangxy799/article/details/50598927
3. 将获取的内容持久化到数据库中 


4. 处理好中文字符的编码问题,可以采用多线程提高效率
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  java 网络爬虫