您的位置:首页 > Web前端 > HTML

基于行块分布函数的通用网页正文内容抽取(带HTML格式)

2014-03-11 23:58 253 查看
算法思路:

假如网页正文(过滤html标签后的)有n行,以k行为一行块,总共可构成n-k+1行块;

以行号为索引号,以行块长度为索引值,形成行块稀疏矩阵;

以上面的稀疏矩阵为基础,找出其骤升骤降点,分割成多个文本块;

最后找出最大的文本块作为正文

-------------------------------------------------------------------------

网页正文抽取程序测试效果



内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: