您的位置：首页 > 编程语言 > Python开发

Python使用BeautifulSoup提取特定HTML标签内容

2016-08-23 17:40 761 查看

将网页的HTML元代码down到本地，然后读取

#coding=utf-8

from bs4 import BeautifulSoup

import datetimedef getYesterdayTime():now_time=datetime.datetime.now()yes_time = now_time + datetime.timedelta(days=-1)yesterdaytime = yes_time.strftime('%Y%m%d')return yesterdaytimedef getUserNamelist():namelist = list()htmldoc = open('caijiinfo'+getYesterdayTime()+'.html', 'r').read()soup = BeautifulSoup(htmldoc, "html.parser")lables = soup.find('div', class_="header").find_all("div")[1]for i in range(len(lables)):namelist.append('_' + lables[i].find('span', class_='row3').string.encode('utf-8') + '_')return namelistif __name__=='__main__':namelist=getUserNamelist()print namelist

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

python使用正则表达式提取html标签
正则提取出HTML正文（剔除标签内容）python实现
Python Xpath 提取html整个元素（标签与内容）
Python3 使用bs4按标签提取贴吧楼主发表内容
Python怎么使用beautifulsoup来从HTML片段中删除标签
Python---对html文件内容进行搜索取出特定URL地址字符串，保存成列表，并使用每个url下载图片，并保存到硬盘上，使用bs4,beautifulsoup模块
python提取html特定标签的特定数据
beautifulsoup提取所有<a>标签内容 Python
Python---对html文件内容进行搜索取出特定URL地址字符串，保存成列表，并使用每个url下载图片，并保存到硬盘上，使用正则re
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
HTML语言基础之——使用标签制作文本内容（4）
【HTML】使用iframe标签显示目标网页（内容）的指定区域
使用struts2标签输出带html标签的文本内容
Python:使用正则去除HTML标签(转)
【HTML】使用Iframe标签显示目标网页（内容）的某区域
使用python提取html文件中的特定数据的实现代码
Python:使用正则去除HTML标签
一个使用Neko提取HTML纯文本内容的程序例子
[Python下载CSDN博客]2. 使用BeautifulSoup分析HTML(一)

新的分享

#新闻拍一拍# 微软推出 Pylance，改善 VS Code 中的 Python 体验
跟我学Python图像处理丨5种图像阈值化处理及算法对比
基于Python设计一个具有基本功能的通讯录
liunx上升级python2至python3
es的查询、排序查询、分页查询、布尔查询、查询结果过滤、高亮查询、聚合函数、python操作es
python常用标准库（时间模块time和datetime）
python之logging日志
python之configparser类的使用
Python常用标准库（pickle序列化和JSON序列化）
MySQL（12） - Python+MySQL读取写入图片
MySQL（11） - Python+MySQL开发新闻管理系统
Python 什么是flask框架？快速入门(flask安装，登录，新手三件套，登录认证装饰器，配置文件，路由系统，CBV)

章节导航