python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例
2019-12-13 12:12
1371 查看
本文实例讲述了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据。分享给大家供大家参考,具体如下:
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 import BeautifulSoup import urllib.request import re #如果是网址,可以用这个办法来读取网页 #html_doc = "http://tieba.baidu.com/p/2460150866" #req = urllib.request.Request(html_doc) #webpage = urllib.request.urlopen(req) #html = webpage.read() html=""" <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name="dromouse"><b>The Dormouse's story</b></p> <p class="story">Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>, <a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and <a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>; <a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a> and they lived at the bottom of a well.</p> <p class="story">...</p> """ soup = BeautifulSoup(html, 'html.parser') #文档对象 #查找a标签,只会查找出一个a标签 #print(soup.a)#<a class="sister" href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" id="xiaodeng"><!-- Elsie --></a> for k in soup.find_all('a'): print(k) print(k['class'])#查a标签的class属性 print(k['id'])#查a标签的id值 print(k['href'])#查a标签的href值 print(k.string)#查a标签的string #如果,标签中含有其他标签,比如..,此时要提取中的数据,需要用k.get_text() #tag.get('calss'),也可以达到这个效果 Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
更多关于Python相关内容可查看本站专题:《
希望本文所述对大家Python程序设计有所帮助。
您可能感兴趣的文章:
- python 3利用BeautifulSoup抓取div标签的方法示例
- Python爬虫包 BeautifulSoup 递归抓取实例详解
- python基于BeautifulSoup实现抓取网页指定内容的方法
- python使用beautifulsoup从爱奇艺网抓取视频播放
- 使用python BeautifulSoup库抓取58手机维修信息
- python BeautifulSoup使用方法详解
- python 解析html之BeautifulSoup
- Python使用BeautifulSoup库解析HTML基本使用教程
- python利用beautifulSoup实现爬虫
- python使用BeautifulSoup分页网页中超链接的方法
- Python爬虫beautifulsoup4常用的解析方法总结
相关文章推荐
- python3用BeautifulSoup用字典的方法抓取a标签内的数据
- python 3利用BeautifulSoup抓取div标签的方法示例
- Python使用xlrd模块操作Excel数据导入的方法
- Python使用内置json模块解析json格式数据的方法
- Python使用matplotlib 模块scatter方法画散点图示例
- python使用clear方法清除字典内全部数据实例
- Python使用pickle模块存储数据报错解决示例代码
- Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息示例
- Python cookbook(数据结构与算法)从字典中提取子集的方法示例
- Python使用cx_Oracle模块将oracle中数据导出到csv文件的方法
- Python使用xlrd模块操作Excel数据导入的方法
- Python中的数据对象持久化存储模块pickle的使用示例
- Python里的数据存储模块:pickle使用方法
- 使用Python抓取豆瓣影评数据的方法
- 爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,loads,dump,load方法介绍
- Python使用cx_Oracle模块将oracle中数据导出到csv文件的方法
- Python使用xlrd模块操作Excel数据导入的方法
- python使用点操作符访问字典(dict)数据的方法
- Python使用xlrd模块操作Excel数据导入的方法
- Python简单定义与使用字典dict的方法示例