基于行块分布函数的通用网页正文内容抽取(带HTML格式)
2014-03-11 23:58
253 查看
算法思路:
假如网页正文(过滤html标签后的)有n行,以k行为一行块,总共可构成n-k+1行块;
以行号为索引号,以行块长度为索引值,形成行块稀疏矩阵;
以上面的稀疏矩阵为基础,找出其骤升骤降点,分割成多个文本块;
最后找出最大的文本块作为正文
-------------------------------------------------------------------------
网页正文抽取程序测试效果
假如网页正文(过滤html标签后的)有n行,以k行为一行块,总共可构成n-k+1行块;
以行号为索引号,以行块长度为索引值,形成行块稀疏矩阵;
以上面的稀疏矩阵为基础,找出其骤升骤降点,分割成多个文本块;
最后找出最大的文本块作为正文
-------------------------------------------------------------------------
网页正文抽取程序测试效果
相关文章推荐
- 基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- cx-extractor:基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- cx-extractor 基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
- 基于行块分布函数的通用网页正文抽取算法初步认识
- 基于行块分布函数的通用网页正文抽取
- 有《基于行块分布函数的通用网页正文抽取》想到的
- 基于行块分布函数的网页正文抽取算法代码实现
- 利用HtmlParse抽取网页正文内容
- 正文抽取-利用curl获取网页内容
- Python MOOC简单获取网页内容并以html格式保存在本地
- 基于标题和正文依存树的中文网页正文抽取方法
- 基于统计的中文网页正文抽取的研究
- 基于DBScan和行块分布函数的网页正文提
- 基于广告链接和行块分布的网页正文抽取
- 利用cpdetector获取文件编码格式,同时得到网页内容。增加http/https通用方式
- 基于行块分布函数的正文抽取
- [原]基于统计的中文网页正文抽取的研究
- 基于PDFBOX抽取文本内容的字体显示格式
- 通过分析html格式确定网页主体内容的想法