您的位置：首页 > 其它

第十一章从Web抓取信息笔记

2017-07-31 18:52 176 查看

webbrowser

用浏览器打开网址，这是它唯一能做的事，webbrowser.open()
requests模块
用来从web下载，功能和urllib2差不多
requests.get()下载网页，返回一个Response对象
要保存内容到本地，要用“写二进制”模式打开文件，即，向open()方法传入wb参数而非w
在for循环中调用Response对象的iter_content()方法,参数是包含字节的数据，每次迭代中调用
write将内容写入本地文件

BeautifulSoup模块
用来解析HTML文件，比正则好用
创建BeautifulSoup对象，用bs4.BeautifulSoup()方法，参数是要解析的HTML的字符串，
也可以向bs4.BeautifulSoup()传入一个本地的HTML文件
select()方法寻找
select()方法返回一个Tag对象，Tag有attrs属性和getText()属性
对Tag对象用get()方法可以得到属性的值，参数是属性的名称

selenium模块
可以用于模拟浏览器操作，导入要用from selenium import webdriver,首先创建browser对象，用webdriver.Firefox()打开火狐浏览器，browser.get()打开一个网址
用这些方法来查找WebElement，WebElement的click()方法模拟点击该元素，send_keys()方法模拟输入

还有四种浏览器按钮，返回，刷新，前进，关闭窗口，分别用browse.back/forward/refresh/quit

更多用法参见文档http://selenium-python.readthedocs.org/

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

第十一章 从Web抓取信息 笔记

第十一章从Web抓取信息笔记