Python使用BeautifulSoup提取特定HTML标签内容
2016-08-23 17:40
761 查看
将网页的HTML元代码down到本地,然后读取
#coding=utf-8
from bs4 import BeautifulSoup
import datetimedef getYesterdayTime():now_time=datetime.datetime.now()yes_time = now_time + datetime.timedelta(days=-1)yesterdaytime = yes_time.strftime('%Y%m%d')return yesterdaytimedef getUserNamelist():namelist = list()htmldoc = open('caijiinfo'+getYesterdayTime()+'.html', 'r').read()soup = BeautifulSoup(htmldoc, "html.parser")lables = soup.find('div', class_="header").find_all("div")[1]for i in range(len(lables)):namelist.append('_' + lables[i].find('span', class_='row3').string.encode('utf-8') + '_')return namelistif __name__=='__main__':namelist=getUserNamelist()print namelist
相关文章推荐
- python使用正则表达式提取html标签
- 正则提取出HTML正文(剔除标签内容)python实现
- Python Xpath 提取html整个元素(标签与内容)
- Python3 使用bs4按标签提取贴吧楼主发表内容
- Python怎么使用beautifulsoup来从HTML片段中删除标签
- Python---对html文件内容进行搜索取出特定URL地址字符串,保存成列表,并使用每个url下载图片,并保存到硬盘上,使用bs4,beautifulsoup模块
- python提取html特定标签的特定数据
- beautifulsoup提取所有<a>标签内容 Python
- Python---对html文件内容进行搜索取出特定URL地址字符串,保存成列表,并使用每个url下载图片,并保存到硬盘上,使用正则re
- python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
- HTML语言基础之——使用标签制作文本内容(4)
- 【HTML】使用iframe标签显示目标网页(内容)的指定区域
- 使用struts2标签输出带html标签的文本内容
- Python:使用正则去除HTML标签(转)
- 【HTML】使用Iframe标签显示目标网页(内容)的某区域
- 使用python提取html文件中的特定数据的实现代码
- Python:使用正则去除HTML标签
- 一个使用Neko提取HTML纯文本内容的程序例子
- [Python下载CSDN博客]2. 使用BeautifulSoup分析HTML(一)