您的位置：首页 > 编程语言 > Python开发

python爬虫信息提取的一般方法

2017-03-12 22:10 507 查看

python爬虫在爬取网页后一般去要进行提取，这里简要介绍击中信息爬取的基本方法。

首先是信息爬取的三种标记形式。

XML    由尖括号和标签组成的信息标记形式。
          例如：

                    <name>...</name>

JSON    由有类型的键值对组成的信息标志形式。
          例如：

                    “name1” ：”python“

                    "name2" : ["python" , "java"]      #多值用[,]组织

                    ”name3":{

                          "name4": "python",

                  "name5": "java"

                          }                                  #键值对嵌套用{,}

YAML    由无类型的的键值对组成的信息标志形式。
           例如：

                         name1：python

                         name2：

                        -python

                        -java                                              #用-表达并列关系

                        name3：

                             subkey：subvalue                  #键值对嵌套用缩进表达

                        另外， YAML用|表示整块数据，用#表示注释

三种信息标记形式的比较：

XML：最早的信息标记语言，可扩展性好，但繁琐，一般用于Internet上的信息交互与传递

JSON：信息由类型，适合程序处理，较XML简洁，但没有注释，一般用于移动应用云端和节点的信息通信

YAML：信息无类型，文本信息比例最高，有注释，可读性好，一般用于各类系统的配置文件

了解了三种信息标记方法，再看看信息提取的一般方法。

方法一：完整解析信息的标记形式，再提取关键信息

XML， JSON， YAML

需要标记解析器

优点：信息解析准确

缺点：提取过程繁琐，速度慢

方法二：

无视标记形式，直接搜索关键信息。

搜索

对信息的文本查找函数即可。

优点：

提取过程简洁，速度较快。

缺点：

提取结果准确性和信息内容相关。

方法三:

结合形式解析和搜索方法，提取关键信息。

XML， JSON， YAML，搜索

需要标记解析器和文本查找函数。

例如：提取HTML中的所有URL链接

           思路：（1）搜索到所有的<a>标签

                       （2）解析<a>标签格式，提取href后的链接内容。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 爬虫信息提取

相关文章推荐

新的分享

章节导航