第十一章 从Web抓取信息 笔记
2017-07-31 18:52
176 查看
webbrowser
用浏览器打开网址,这是它唯一能做的事,webbrowser.open()
requests模块
用来从web下载,功能和urllib2差不多
requests.get()下载网页,返回一个Response对象
要保存内容到本地,要用“写二进制”模式打开文件,即,向open()方法传入wb参数而非w
在for循环中调用Response对象的iter_content()方法,参数是包含字节的数据,每次迭代中调用
write将内容写入本地文件
BeautifulSoup模块
用来解析HTML文件,比正则好用
创建BeautifulSoup对象,用bs4.BeautifulSoup()方法,参数是要解析的HTML的字符串,
也可以向bs4.BeautifulSoup()传入一个本地的HTML文件
select()方法寻找
select()方法返回一个Tag对象,Tag有attrs属性和getText()属性
对Tag对象用get()方法可以得到属性的值,参数是属性的名称
selenium模块
可以用于模拟浏览器操作,导入要用from selenium import webdriver,首先创建browser对象,用webdriver.Firefox()打开火狐浏览器,browser.get()打开一个网址
用这些方法来查找WebElement,WebElement的click()方法模拟点击该元素,send_keys()方法模拟输入
还有四种浏览器按钮,返回,刷新,前进,关闭窗口,分别用browse.back/forward/refresh/quit
更多用法参见文档http://selenium-python.readthedocs.org/
用浏览器打开网址,这是它唯一能做的事,webbrowser.open()
requests模块
用来从web下载,功能和urllib2差不多
requests.get()下载网页,返回一个Response对象
要保存内容到本地,要用“写二进制”模式打开文件,即,向open()方法传入wb参数而非w
在for循环中调用Response对象的iter_content()方法,参数是包含字节的数据,每次迭代中调用
write将内容写入本地文件
BeautifulSoup模块
用来解析HTML文件,比正则好用
创建BeautifulSoup对象,用bs4.BeautifulSoup()方法,参数是要解析的HTML的字符串,
也可以向bs4.BeautifulSoup()传入一个本地的HTML文件
select()方法寻找
select()方法返回一个Tag对象,Tag有attrs属性和getText()属性
对Tag对象用get()方法可以得到属性的值,参数是属性的名称
selenium模块
可以用于模拟浏览器操作,导入要用from selenium import webdriver,首先创建browser对象,用webdriver.Firefox()打开火狐浏览器,browser.get()打开一个网址
用这些方法来查找WebElement,WebElement的click()方法模拟点击该元素,send_keys()方法模拟输入
还有四种浏览器按钮,返回,刷新,前进,关闭窗口,分别用browse.back/forward/refresh/quit
更多用法参见文档http://selenium-python.readthedocs.org/
相关文章推荐
- Python学习笔记(八)——从Web抓取信息
- WebService学习笔记-读取webxml.com.cn的天气服务信息
- Web信息抓取方法与解析受攻击面
- C#(ASP.NET) 下载数据 C#实现通过程序自动抓取远程Web网页信息
- C#实现web信息自动抓取
- C#实现web信息抓取
- C#实现web信息自动抓取
- 【极客学院】-python学习笔记-4-单线程爬虫 (提交表单抓取信息,实战练习)
- C#实现web信息自动抓取
- 使用Ruby程序实现web信息抓取的教程
- Web信息架构笔记
- Atitit.web的自动化操作与信息抓取 attilax总结
- C#实现通过程序自动抓取远程Web网页信息
- WebService学习笔记-读取webxml.com.cn的天气服务信息
- C#实现web信息自动抓取
- C#实现web信息自动抓取
- Atitit.web的自动化操作与信息抓取 attilax总结
- spring mvc学习笔记(一)web.xml文件配置的一点重要信息
- 【Python笔记】WEB抓取框架Scrapy的安装方法
- C#实现web信息自动抓取