Python爬虫之使用BeautifulSoup解析HTML文本
2016-10-21 16:37
751 查看
直接上代码,注释也写了
from bs4 import BeautifulSoup #2016.10.20 Python爬虫之解析HTML # 摘要 # 创建对象,DOM树 # 搜索节点,访问节点 - 两种方法 # 名称,属性,文字,(节点名称,节点属性,节点文本内容) # 创建对象 soup = BeautifulSoup( html_doc, # 文档字符串 'html.parser', # 解析器 from_encoding = 'utf-8' # 文档编码 ) # 搜索节点 soup.find_all('a') # 所有a标签 soup.find_all('a',href='#') #也可用正则表达式 soup.find_all('div',class_='xxx',string='hahaha') # 类名为xxx而且文本内容为hahaha的div # 访问节点信息 # <a href='#'>hahaha</a> node.name node['href'] node.get_text() # a链接文字
相关文章推荐
- python的【爬虫】:使用urllib爬取wiki文章,使用beautifulSoup解析html
- python爬虫入门教程--HTML文本的解析库BeautifulSoup(四)
- Python 爬虫(以赛马数据为例)之使用BeautifulSoup进行Html解析
- Python爬虫包 BeautifulSoup 学习(十) 各种html解析器的比较及使用
- 【python】使用HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
- Python3.7 爬虫(二)使用 Urllib2 与 BeautifulSoup4 抓取解析网页
- 使用Python的HTMLParser解析HTML文本
- python 使用 BeautifulSoup 解析html
- 黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- python中使用beautifulsoup4解析网页Html
- python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)(转)
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
- 黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies .
- 【用Python写爬虫】获取html的方法【三】:使用cPAMIE
- 【使用JSOUP实现网络爬虫】从元素抽取属性,文本和HTML
- 【用Python写爬虫】获取html的方法【二】:使用pycurl
- 【用Python写爬虫】获取html的方法【一】:使用urllib