python爬虫信息提取的一般方法
2017-03-12 22:10
507 查看
python爬虫在爬取网页后一般去要进行提取,这里简要介绍击中信息爬取的基本方法。
首先是信息爬取的三种标记形式。
XML 由尖括号和标签组成的信息标记形式。
例如:
<name>...</name>
JSON 由有类型的键值对组成的信息标志形式 。
例如:
“name1” :”python“
"name2" : ["python" , "java"] #多值用[,]组织
”name3":{
"name4": "python",
"name5": "java"
} #键值对嵌套用{,}
YAML 由无类型的的键值对组成的信息标志形式。
例如:
name1:python
name2:
-python
-java #用-表达并列关系
name3:
subkey:subvalue #键值对嵌套用缩进表达
另外, YAML用|表示整块数据,用#表示注释
三种信息标记形式的比较:
XML: 最早的信息标记语言,可扩展性好, 但繁琐, 一般用于Internet上的信息交互与传递
JSON: 信息由类型, 适合程序处理, 较XML简洁, 但没有注释, 一般用于移动应用云端和节点的信息通信
YAML: 信息无类型, 文本信息比例最高, 有注释, 可读性好,一般用于各类系统的配置文件
了解了三种信息标记方法, 再看看信息提取的一般方法。
方法一:完整解析信息的标记形式, 再提取关键信息
XML, JSON, YAML
需要标记解析器
优点: 信息解析准确
缺点: 提取过程繁琐, 速度慢
方法二:
无视标记形式, 直接搜索关键信息。
搜索
对信息的文本查找函数即可。
优点:
提取过程简洁, 速度较快。
缺点:
提取结果准确性和信息内容相关。
方法三:
结合形式解析和搜索方法, 提取关键信息。
XML, JSON, YAML,搜索
需要标记解析器和文本查找函数。
例如:提取HTML中的所有URL链接
思路:(1) 搜索到所有的<a>标签
(2) 解析<a>标签格式, 提取href后的链接内容。
首先是信息爬取的三种标记形式。
XML 由尖括号和标签组成的信息标记形式。
例如:
<name>...</name>
JSON 由有类型的键值对组成的信息标志形式 。
例如:
“name1” :”python“
"name2" : ["python" , "java"] #多值用[,]组织
”name3":{
"name4": "python",
"name5": "java"
} #键值对嵌套用{,}
YAML 由无类型的的键值对组成的信息标志形式。
例如:
name1:python
name2:
-python
-java #用-表达并列关系
name3:
subkey:subvalue #键值对嵌套用缩进表达
另外, YAML用|表示整块数据,用#表示注释
三种信息标记形式的比较:
XML: 最早的信息标记语言,可扩展性好, 但繁琐, 一般用于Internet上的信息交互与传递
JSON: 信息由类型, 适合程序处理, 较XML简洁, 但没有注释, 一般用于移动应用云端和节点的信息通信
YAML: 信息无类型, 文本信息比例最高, 有注释, 可读性好,一般用于各类系统的配置文件
了解了三种信息标记方法, 再看看信息提取的一般方法。
方法一:完整解析信息的标记形式, 再提取关键信息
XML, JSON, YAML
需要标记解析器
优点: 信息解析准确
缺点: 提取过程繁琐, 速度慢
方法二:
无视标记形式, 直接搜索关键信息。
搜索
对信息的文本查找函数即可。
优点:
提取过程简洁, 速度较快。
缺点:
提取结果准确性和信息内容相关。
方法三:
结合形式解析和搜索方法, 提取关键信息。
XML, JSON, YAML,搜索
需要标记解析器和文本查找函数。
例如:提取HTML中的所有URL链接
思路:(1) 搜索到所有的<a>标签
(2) 解析<a>标签格式, 提取href后的链接内容。
相关文章推荐
- python爬虫里信息提取的核心方法: Beautifulsoup、Xpath和正则表达式
- python爬虫学习 信息标记与提取方法
- Python网络爬虫与信息提取(二):网络爬虫之提取
- Python网络爬虫与信息提取-Day7-基于bs4库的HTML内容遍历方法
- Python网络爬虫与信息提取(三):网络爬虫之实战
- Python3,通过re模块中的sub()和findall()2个方法提升爬虫提取数据的效率
- 信息提取的一般方法
- python爬虫提取信息:正则表达式和xpath
- MOOC-Python网络爬虫与信息提取-第二周 BeautifulSoup库入门与信息提取方法
- Python网络爬虫与信息提取-Day10-(实例)中国大学排名定向爬虫
- Python分布式爬虫前菜(2):关于提取网页源码中特定信息的技巧
- Python 网络爬虫-正则表达式、BeautifulSoup、lxml三种提取方法
- Python网络爬虫与信息提取(二):网络爬虫之提取
- Python网络爬虫与信息提取(三):网络爬虫之实战
- Python网络爬虫与信息提取-Day14-(实例)股票数据定向爬虫
- Python网络爬虫与信息提取-Day9-信息标记与提取方法
- Python网络爬虫与信息提取(一):网络爬虫之规则
- Python爬虫信息输入及页面的切换方法
- 【极客学院】-python学习笔记-3-单线程爬虫 (request安装遇到问题及解决,应用requests提取信息)
- python网络爬虫笔记之信息提取