您的位置：首页 > 编程语言 > Python开发

Python 解析 html 文件

2010-01-09 18:39 267 查看

HTMLParser是Python自带的模块，能够很容易实现HTML文件的处理
使用HTMLParser解析HTML文件

看了一下介绍，觉得功能很强劲，还没又时间去研究。

BeautifulSoup简单文档有空我会去完善的。

现在标题 <title> 部分大多含有网站名称, 和子栏目名称。
如果希望得到干净的文章标题可以使用如下方法：

得到<title> </title>的内容

将title的与正文就最大交集，得到的就是干净的文章标题

得到了干净的标题和正文，余下的事情就好做咯

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航