网络爬虫介绍(待完善)
2016-01-28 12:41
549 查看
写在前面的:
最近帮一人朋友写一个快递订单查询的软件,先在网上找各种API接口,好多都是要花钱购买服务才行,后来看到一个新网站“十颗心”不要钱的(估计是在推广期)。
按这个写好软件之后,朋友发现有一些信息没有。就打开了DHL官网给我看需要哪些东西。我才想到怎么不自己去爬呢?后面开始了探索之路。
大神:http://blog.csdn.net/never_cxb/article/details/50527205
爬虫的基本思路如下
1. 根据 Url 获取相应页面的 Html 代码 http://blog.csdn.net/wangxy799/article/details/50563010
2. 利用正则匹配或者 Jsoup 等库解析 Html 代码,提取需要的内容 http://blog.csdn.net/wangxy799/article/details/50598927
3. 将获取的内容持久化到数据库中
4. 处理好中文字符的编码问题,可以采用多线程提高效率
最近帮一人朋友写一个快递订单查询的软件,先在网上找各种API接口,好多都是要花钱购买服务才行,后来看到一个新网站“十颗心”不要钱的(估计是在推广期)。
按这个写好软件之后,朋友发现有一些信息没有。就打开了DHL官网给我看需要哪些东西。我才想到怎么不自己去爬呢?后面开始了探索之路。
大神:http://blog.csdn.net/never_cxb/article/details/50527205
爬虫的基本思路如下
1. 根据 Url 获取相应页面的 Html 代码 http://blog.csdn.net/wangxy799/article/details/50563010
2. 利用正则匹配或者 Jsoup 等库解析 Html 代码,提取需要的内容 http://blog.csdn.net/wangxy799/article/details/50598927
3. 将获取的内容持久化到数据库中
4. 处理好中文字符的编码问题,可以采用多线程提高效率
相关文章推荐
- java对世界各个时区(TimeZone)的通用转换处理方法(转载)
- java-注解annotation
- java-模拟tomcat服务器
- java-用HttpURLConnection发送Http请求.
- java-WEB中的监听器Lisener
- Android IPC进程间通讯机制
- Android Native 绘图方法
- Android java 与 javascript互访(相互调用)的方法例子
- 介绍一款信息管理系统的开源框架---jeecg
- 聚类算法之kmeans算法java版本
- java实现 PageRank算法
- PropertyChangeListener简单理解
- c++11 + SDL2 + ffmpeg +OpenAL + java = Android播放器
- 插入排序
- 冒泡排序
- 堆排序
- 快速排序
- 二叉查找树