您的位置:首页 > 编程语言 > Python开发

python爬虫信息提取的一般方法

2017-03-12 22:10 507 查看
python爬虫在爬取网页后一般去要进行提取,这里简要介绍击中信息爬取的基本方法。

首先是信息爬取的三种标记形式。

XML    由尖括号和标签组成的信息标记形式。
          例如:

                    <name>...</name>

JSON    由有类型的键值对组成的信息标志形式 。
          例如:

                    “name1” :”python“

                    "name2" : ["python" , "java"]      #多值用[,]组织

                    ”name3":{

                          "name4": "python",

                          "name5": "java"

                          }                                  #键值对嵌套用{,}

YAML    由无类型的的键值对组成的信息标志形式。
           例如:

                         name1:python

                         name2:

                        -python

                        -java                                              #用-表达并列关系

                        name3:

                             subkey:subvalue                  #键值对嵌套用缩进表达

                        另外, YAML用|表示整块数据,用#表示注释

三种信息标记形式的比较:

XML: 最早的信息标记语言,可扩展性好, 但繁琐, 一般用于Internet上的信息交互与传递

JSON: 信息由类型, 适合程序处理, 较XML简洁, 但没有注释, 一般用于移动应用云端和节点的信息通信

YAML: 信息无类型, 文本信息比例最高, 有注释, 可读性好,一般用于各类系统的配置文件

了解了三种信息标记方法, 再看看信息提取的一般方法。

方法一:完整解析信息的标记形式, 再提取关键信息

XML, JSON, YAML

需要标记解析器

优点: 信息解析准确

缺点: 提取过程繁琐, 速度慢

方法二:

无视标记形式, 直接搜索关键信息。

搜索

对信息的文本查找函数即可。

优点:

提取过程简洁, 速度较快。

缺点:

提取结果准确性和信息内容相关。

方法三:

结合形式解析和搜索方法, 提取关键信息。

XML, JSON, YAML,搜索

需要标记解析器和文本查找函数。

例如:提取HTML中的所有URL链接

           思路:(1) 搜索到所有的<a>标签

                       (2) 解析<a>标签格式, 提取href后的链接内容。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 爬虫 信息提取