Python爬虫,用第三方库解决下载网页中文本的问题
2018-06-26 09:37
429 查看
还在辛辛苦苦的查找网页规律,写正则或者其他方式去匹配文本内容吗?还在纠结怎么去除小说网站的其他字符吗?
先来看看下面2张图,都是某小说网站的小说内容
怎么样,是不是很简洁!这就是今天给大家介绍的库,newspaper库!
newspaper
python3.x安装: pip install newspaper3kpython2.7安装: pip install newspaper
简单的给大家说说它的功能:
首先是获取网页所有url的功能,我们以sina新闻为例子,写代码如下:
看,这就把新浪新闻主页的所有url链接抓到了,是不是很快捷!(当然结果还是需要各种筛选)
提取网页所有文本内容,这次我们随便找个新闻来试试!
是不是很方便~!!而且这个对小说网站依然有效(还记得开始的图吗?)!!大家可以去试试。
当然,这个库还有其他很多的功能,这里就不一一说明了,大家可以自行去摸索哦!
最后
这是一个非常不错的库,适合用来写爬虫,如有不懂的地方我在评论区等着你,关注一下,与你共享更多有用的知识。大家加油!参考来源:https://github.com/codelucas/newspaper
相关文章推荐
- Python 网络爬虫 006 (编程) 解决下载(或叫:爬取)到的网页乱码问题
- Python 网络爬虫 006 (编程) 解决下载(或叫:爬取)到的网页乱码问题
- python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
- python3.6+selenium+phantomJS 网页爬虫报错NoSuchElementException问题及解决方法
- python爬虫解决网页重定向问题
- 关于python 3 和python 2的网页爬虫下载问题
- python --网页爬虫,文本处理,科学计算,机器学习,数据挖掘资料+附带工具包下载
- python爬虫中文网页cmd打印出错问题解决
- Python爬虫——解决urlretrieve下载不完整问题且避免用时过长
- 解决Python网页爬虫之中文乱码问题
- python --网页爬虫,文本处理,科学计算,机器学习,数据挖掘资料+附带工具包下载+tensorflow
- python爬虫解决网页重定向问题
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)
- 分享一个连接,python扩展包下载地址分享包括numpy,scipy等,解决了win8系统不能使用这些扩展包的问题!
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器库
- [resource-]Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
- Python的网页爬虫&文本处理&科学计&机器学习&数据挖掘工具集
- Python的网页爬虫&文本处理&科学计&机器学习&数据挖掘工具集
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱