用python3.5抓取内涵段子并且保存到本地
2017-09-02 09:18
441 查看
因为一些资料和代码是参考网上的。所以为转载
#coding=utf-8 import time import re from bs4 import BeautifulSoup #安装BeautifulSoup from selenium import webdriver #安装谷歌浏览器驱动 链接:http://pan.baidu.com/s/1i5Kgvjf 密码:3xhd
path = "D:\chromedriver\chromedriver.exe" driver = webdriver.Chrome(executable_path=path) driver.get('https://neihanshequ.com/') for i in range (100): driver.find_element_by_id("loadMore").click() #点击加载更多time.sleep(1) html = driver.page_source #获取网页文本 print(html) def getText(html): # ------ 利用正则表达式匹配网页内容找到wenzi ------ reg = r'<div class="upload-txt.*?">(.*?)</div>' pattern= re.compile(reg,re.S); result = re.findall(pattern, html) return result pag = getText(html) with open('E:\内涵段子\\201792.txt', 'w', encoding='utf-8') as f: for each in pag: if '<br />' in each: # 替换成换行符并输出 new_each = re.sub(r'<br />', '\n', each) f.write(new_each) print(new_each) # 没有就照常输出 else: f.write(str(each) + '\n') print('All done') #driver.quit()
相关文章推荐
- python 爬取w3shcool的JQuery的课程并且保存到本地
- python抓取网页中图片并保存到本地
- 使用python 编写 抓取内涵段子动态图的简单爬虫
- 用thinkphp写的一个例子:抓取网站的内容并且保存到本地
- [Python] 抓取聚划算页面商品分析页面获取商品信息并以XML格式保存到本地
- python爬取w3shcool的JQuery课程并且保存到本地
- python 抓取图片保存在本地
- Python 爬虫抓取美女图片保存到本地
- python从oracle读取数据并且保存在本地的小操作
- python抓取网页中图片并保存到本地
- python抓取网页中图片并保存到本地
- thinkphp 抓取网站的内容并且保存到本地的实例详解
- python抓取网页中图片并保存到本地
- Python使用爬虫抓取美女图片并保存到本地的方法【测试可用】
- python爬虫抓取51cto博客大牛的文章保存到本地excel文件
- Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地
- 人生苦短,我用Python--爬虫模拟登陆教务处并且保存数据到本地
- 黄聪:python访问抓取网页常用命令(保存图片到本地、模拟POST、GET、中文编码问题)
- python 解析网页,将抓取到的图片保存到本地