#小练习 SGMLParser 解析 HTML 分类: HTMLParser 2013-11-12 15:52 472人阅读 评论(0) 收藏
2013-11-12 15:52
639 查看
#coding:utf-8 from sgmllib import SGMLParser class GetIdList(SGMLParser): def reset(self): self.IDlist=[] self.flag=False self.getdata=False self.verbatim = 0 SGMLParser.reset(self) def start_div(self,attrs): if self.flag==True: self.verbatim+=1 #进入子层div了,层数+1 for k,v in attrs: if k=="class" and v=="entry-content":#确定进入了<div class='entry-content'> self.flag=True def end_div(self):#遇到</div> if self.verbatim==0: self.flag=False if self.flag==True:#退出子层div了,层数减 1 self.verbatim-=1 def start_p(self,attrs): if self.flag==False: return self.getdata=True def end_p(self):#遇到</p> if self.getdata: self.getdata=False def handle_data(self,text):#处理文本 if self.getdata: self.IDlist.append(text) def printID(self): for i in self.IDlist: print i.decode("utf-8") if __name__ == '__main__': the_page ='''<html> <head> <title>test</title> </head> <body> <h1>title</h1> <div class='entry-content'> <p>感兴趣内容1</p> <p>感兴趣内容2</p> …… <p>感兴趣内容n</p> <div class='entry-content'>我是来捣乱的2<div class= 'ooxx'>我是来捣乱的3</div></div> </div> <div class='content'> <p>内容1</p> <p>内容2</p> …… <p>内容n</p> </div> </body> </html> ''' gid=GetIdList() gid.feed(the_page) gid.printID() gid.close()
结果:
感兴趣内容1
感兴趣内容2
感兴趣内容n
相关文章推荐
- #小练习 使用SGMLParser获取url链接 分类: HTMLParser 2013-11-12 16:52 471人阅读 评论(0) 收藏
- HTMLParser解析网页,提取链接地址、标题名称,并插入数据库 分类: python 小练习 HTMLParser 2014-02-19 09:57 519人阅读 评论(0) 收藏
- SGMLParser (二) 分类: python 小练习 HTMLParser 2014-02-20 14:06 362人阅读 评论(0) 收藏
- python:解析html(HTMLParser、SGMLParser) 分类: HTMLParser 2013-11-12 18:11 2302人阅读 评论(0) 收藏
- Java解析HTML之HTMLParser使用与详解 分类: C_OHTERS 2014-05-19 21:46 2309人阅读 评论(0) 收藏
- Python之HTML的解析(网页抓取一) 分类: HTMLParser 2013-11-08 20:32 5203人阅读 评论(0) 收藏
- #小练习 使用字典保存HTMLParser解析的数据 分类: python 小练习 HTMLParser 2013-11-08 20:51 574人阅读 评论(0) 收藏
- #小练习 SGMLParser练习 分类: HTMLParser 2013-11-12 15:50 456人阅读 评论(0) 收藏
- #小练习 解析HTML文件并使用字典保存链接 分类: HTMLParser python 小练习 2013-11-11 12:06 267人阅读 评论(0) 收藏
- 使用python解析json文件 分类: python 小练习 2014-03-21 18:17 354人阅读 评论(0) 收藏
- SGMLParser 分类: HTMLParser 2013-11-12 15:25 1066人阅读 评论(1) 收藏
- 将两个列表元素组成字典 分类: python 小练习 2013-11-12 18:17 750人阅读 评论(0) 收藏
- #小练习 HTMLParser 分类: python 小练习 python 2013-06-03 15:54 162人阅读 评论(0) 收藏
- 使用urllib2解析html内容,并正常显示中文的方法 分类: python Module 2013-10-31 17:30 294人阅读 评论(0) 收藏
- HtmlParser基础教程 分类: C_OHTERS 2014-05-22 11:33 1649人阅读 评论(1) 收藏
- 判断元素出现的次数、总和 分类: python 小练习 2014-03-21 15:52 250人阅读 评论(0) 收藏
- #小练习 使用HTMLParser获取data时注意事项 分类: python 小练习 HTMLParser 2013-11-08 21:05 335人阅读 评论(0) 收藏
- 结尾非零数的奇偶性 分类: python 小练习 2013-12-02 18:04 371人阅读 评论(0) 收藏
- 文件操作注意事项 分类: python 小练习 python基础学习 open()文件读写 2013-12-03 11:05 532人阅读 评论(0) 收藏
- 图结构练习——最小生成树 分类: 最小生成树 图论 2015-06-09 17:00 13人阅读 评论(0) 收藏