您的位置:首页 > 编程语言 > Python开发

python selenium和xpath实现控制谷歌浏览器爬取小说

2019-07-03 22:31 239 查看

标题下载谷歌浏览器版本对应的控制驱动

查看自己的谷歌浏览器驱动,找到浏览器>>设置>>帮助>>关于chrome。
浏览器驱动下载地址上下载对应的版本。
解压,然后将exe文件放在python的安装目录下的script目录下。(这里注意你当前pycharm的python解释器环境也在这个目录)

标题安装selenium三方库

命令行安装

pip install selenium

标题实现selenium和xpath结合控制浏览器下载小说

from time import sleep
from selenium import webdriver
#实例化一个浏览器驱动
chrome = webdriver.Chrome()
def getText(url):
url=chrome.get(url)
content = chrome.find_elements_by_xpath("//div[@class='title_txtbox']")
text = chrome.find_elements_by_xpath("//div[@class='content']/p")
with open("read.txt",mode="a+") as f:
for i in content:
f.write(i.text+'\n')
for i in text:
f.writelines(i.text+'\n')
sleep(1)
next_chapter = chrome.find_elements_by_xpath("//a[@class='nextchapter']")
if next_chapter:
next_chapters = next_chapter[0].get_attribute('href')
chrome.find_elements_by_xpath("//a[@class='nextchapter']")[0].click()
getText(next_chapters)
else:
chrome.close()
return 0
chrome.close()

getText("http://book.zongheng.com/chapter/189169/3431546.html")
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: