您的位置：首页 > Web前端 > HTML

基于行块分布函数的通用网页正文内容抽取（带HTML格式）

2014-03-11 23:58 253 查看

算法思路：

假如网页正文(过滤html标签后的)有n行，以k行为一行块，总共可构成n-k+1行块；

以行号为索引号，以行块长度为索引值，形成行块稀疏矩阵；

以上面的稀疏矩阵为基础，找出其骤升骤降点，分割成多个文本块；

最后找出最大的文本块作为正文

-------------------------------------------------------------------------

网页正文抽取程序测试效果

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关
cx-extractor：基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关
cx-extractor 基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关
基于行块分布函数的通用网页正文抽取算法初步认识
基于行块分布函数的通用网页正文抽取
有《基于行块分布函数的通用网页正文抽取》想到的
基于行块分布函数的网页正文抽取算法代码实现
利用HtmlParse抽取网页正文内容
正文抽取-利用curl获取网页内容
Python MOOC简单获取网页内容并以html格式保存在本地
基于标题和正文依存树的中文网页正文抽取方法
基于统计的中文网页正文抽取的研究
基于DBScan和行块分布函数的网页正文提
基于广告链接和行块分布的网页正文抽取
利用cpdetector获取文件编码格式，同时得到网页内容。增加http/https通用方式
基于行块分布函数的正文抽取
[原]基于统计的中文网页正文抽取的研究
基于PDFBOX抽取文本内容的字体显示格式
通过分析html格式确定网页主体内容的想法

新的分享

Html简单标签
HTML表单
仿京东商城html网页源码
HTML行内级元素之间的空格问题
HTML元素类型总结
HTML怎么设置下划线?html文字加下划线方法
HTML汉字编码标准介绍
html网页中使用希腊字母的方法
HTML基础详解(上)
HTML基础详解（下）
基于HTML十秒做出淘宝页面
【Python】300行代码搞定HTML模板渲染

章节导航