Python__XPath+多线程实例
2015-08-22 16:35
741 查看
————————————————XPath初识————————————————
————————————————多线程爬虫实例————————————————
#-*_coding:utf-8-*- from lxml import etree # //定位根节点 # /往下层寻找 # /text() 提取文本内容 # /@xxxx 提取属性内容 html = ''' <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8"> <title>测试-常规用法</title> </head> <body> <div id="content"> <ul id="useful"> <li>这是第一条信息</li> <li>这是第二条信息</li> <li>这是第三条信息</li> </ul> <ul id="useless"> <li>不需要的信息1</li> <li>不需要的信息2</li> <li>不需要的信息3</li> </ul> <div id="url"> <a href="http://jikexueyuan.com">极客学院</a> <a href="http://jikexueyuan.com/course/" title="极客学院课程库">点我打开课程库</a> </div> </div> </body> </html> ''' selector =etree.HTML(html) #提取文本 content = selector.xpath('//ul[@id="useful"]/li/text()') for each in content: print each #提取属性 link = selector.xpath('//a/@href') for each in link: print each title = selector.xpath('//a/@title') print title[0] html1 = ''' <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8"> <title></title> </head> <body> <div id="test-1">需要的内容1</div> <div id="test-2">需要的内容2</div> <div id="testfault">需要的内容3</div> </body> </html> ''' html2 = ''' <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8"> <title></title> </head> <body> <div id="test3"> 我左青龙, <span id="tiger"> 右白虎, <ul>上朱雀, <li>下玄武。</li> </ul> 老牛在当中, </span> 龙头在胸口。 </div> </body> </html> ''' selector = etree.HTML(html1) content = selector.xpath('//div[starts-with(@id,"test")]/text()') for each in content: print each selector = etree.HTML(html2) content_1 = selector.xpath('//div[@id="test3"]/text()') for each in content_1: print each data = selector.xpath('//div[@id="test3"]')[0] info = data.xpath('string(.)') content_2 = info.replace('\n','').replace(' ','') print content_2
————————————————多线程爬虫实例————————————————
相关文章推荐
- PIL安装
- tiny_mce
- 解释型语言和编译型语言的不同以及Python如何运行
- Parallel Programming in Python
- [python] 命令行参数
- Python第一天 - set
- Python中的 getopt模块
- Python 初学(4)——再谈字符串
- Python字符串的编码与解码(encode与decode)
- python simplejson and json 使用及区别
- python 网页抓取并保存图片
- python 分词
- 零基础学python-7.5 文本解析
- 零基础学python-7.5 文本解析
- python中的mysql数据库like模糊查询
- 轻松python专题--文本
- 轻松python专题--文本
- python第一天 - dict
- 零基础学python-7.4 修改字符串实例总结
- 零基础学python-7.4 修改字符串实例总结