python练习1(简单爬虫)
2017-10-11 19:54
435 查看
做一个简单的练习
目标:爬取中文小说
目标网站:http://www.biqule.com/book_58/26986.html
只爬取正文部分。
使用requests库来获取网页信息,使用re库正则匹配正文文本。
这里有一点需要注意的是测试时是使用linux环境下的python,默认编码为utf-8。网页中文文本为gbk编码。读取时需要指定编码为gbk,不然会出现乱码的现象。
具体代码如下:
目标:爬取中文小说
目标网站:http://www.biqule.com/book_58/26986.html
只爬取正文部分。
使用requests库来获取网页信息,使用re库正则匹配正文文本。
这里有一点需要注意的是测试时是使用linux环境下的python,默认编码为utf-8。网页中文文本为gbk编码。读取时需要指定编码为gbk,不然会出现乱码的现象。
具体代码如下:
#!/usr/bin/python3 import requests from requests.exceptions import RequestException import re def open_index(url): try: response = requests.get(url) if response.status_code == 200: response.encoding = 'gbk' return response.text return None except RequestException: return None def parse_one_page(html): pattern = re.compile(' (.*?)<br />',re.S) items = re.findall(pattern,html) print(items) def main(): url = "http://www.biqule.com/book_58/26986.html" html = open_index(url) parse_one_page(html) if __name__ == '__main__': main()
相关文章推荐
- python爬虫小练习之五:requests库小练习(58同城2手手机简单)
- python简单爬虫练习
- 做一个简单的python爬虫
- 某徒步旅游网站python爬虫小练习
- python 简单爬虫原理
- 用 python 做简单的网页爬虫程序
- python日常练习(文件简单操作)
- python简单爬虫--转源码
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- Hello Python!用python写一个抓取CSDN博客文章的简单爬虫
- python 开发简单爬虫
- 简单实现python爬虫功能
- python练习四—简单的聊天软件
- Python 网络爬虫--简单的模拟登录
- python实现简单爬虫功能
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- Python实现抓取页面上链接的简单爬虫分
- python使用tornado实现简单爬虫
- 用Python制作简单的爬虫---爬虫基本思想
- python简单爬虫技术