爬虫小案例 爬取笑话 xpath
2018-07-21 08:50
39 查看
[code]import requests from lxml import etree # 写入文件 def write_file(art): with open("笑话.txt", "a+", encoding="utf-8") as f: f.write(art) # 解析html得到自己想要的内容 def parse_html(html): content = etree.HTML(html) a_lists = content.xpath('//div[@class="list_title"]/ul/li/b/a/@href') for a in a_lists: # # "http://www.jokeji.cn/jokehtml/%E5%86%B7%E7%AC%91%E8%AF%9D/201806212319307.htm" url = "http://www.jokeji.cn" + a result = requests.get(url) # 转化成gb2312编码 result.encoding = "gb2312" result = result.text info = etree.HTML(result) art_lists = info.xpath('//span[@id="text110"]/p/text()') for art in art_lists: print(art) write_file(art) def main(): num = 1 for i in range(10): url = "http://www.jokeji.cn/list_" + str(num) + ".htm" num += 1 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36" } html = requests.get(url, headers=headers) # 如果不知道是什么编码 此时可以print(html.encoding)查看一下是什么编码 html.encoding = "gb2312" html = html.text parse_html(html) if __name__ == '__main__': main()
阅读更多
相关文章推荐
- Python爬虫(十三)_案例:使用XPath的爬虫
- Python爬虫——4.4爬虫案例——requests和xpath爬取招聘网站信息
- 案例:使用XPath的的爬虫
- XPath与lxml库介绍及爬虫案例
- 爬虫案例:xpath的使用
- Python爬虫基础学习,从一个小案例来学习xpath匹配方法
- python3 [入门基础实战] 爬虫入门之xpath爬取脚本之家python栏目
- 爬虫笔记3-xpath
- Python爬虫抓取马蜂窝游记的照片 基于xpath
- Python爬虫(二十二)_selenium案例:模拟登陆豆瓣
- python2-爬虫-POST请求的模拟案例_recv
- 【python学习】网络爬虫——基础案例教程
- 爬虫之xpath
- Python爬虫(入门+进阶)学习笔记 1-4 使用Xpath解析豆瓣短评
- Python爬虫利器三之Xpath语法与lxml库的用法
- day1:python学习爬虫抓取与解析:链家网案例
- HtmlUnit java爬虫入门 真实案例讲解 爬取电商网站数据
- python爬虫:xpath
- python爬虫利器-xpath使用
- 19个案例轻松学会python爬虫