您的位置：首页 > 编程语言 > Python开发

python 任意新闻正文提取

2016-10-25 20:06 190 查看

在github上搜到一个正文提取程序，测试了一下基本可以对现在大多数大型新闻网站进行提取

后续我会分析一下这个程序的源码

使用非常简单如下

# -*- coding: utf-8 -*-
import newspaper
url = 'http://news.haiwainet.cn/n/2015/0611/c3541083-28826526.html'
a = newspaper.Article(url,language='zh')
a.download()
a.parse()
print(a.text)

github：https://github.com/codelucas/newspaper

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

正则提取出HTML正文（剔除标签内容）python实现
基于文本密度的新闻正文抽取方法之Python实现
新闻网页正文提取beta版(下)
提取新闻正文
【Python】提取网页正文内容的相关模块与技术
python 提取一行中任意路径
贝叶斯案例3：文本关键词提取、新闻分类（python实现）
Python Show-Me-the-Code 第 0008 题提取HTML正文内容
搜狗新闻语料库 python正则表达式新闻内容提取
python3爬取百度搜索结果url，获得真实url，提取网页正文并分词，多进程的使用
新闻网页正文提取beta版(上)
Python 实现英文新闻摘要自动提取（2）
Python 从任意文本中提取Twitter的推文元素
Python 实现英文新闻摘要自动提取(1)
python通用论坛正文提取\python论坛评论提取\python论坛用户信息提取
驴子的新闻提取系统（一）
批量提取 sitemap.xml 中的链接生成 sitemap.txt (Python脚本)
多种基于html正文提取的思想
信息度的分类提取策略-------基于python(网络爬虫)

新的分享

#新闻拍一拍# 微软推出 Pylance，改善 VS Code 中的 Python 体验
跟我学Python图像处理丨5种图像阈值化处理及算法对比
基于Python设计一个具有基本功能的通讯录
liunx上升级python2至python3
es的查询、排序查询、分页查询、布尔查询、查询结果过滤、高亮查询、聚合函数、python操作es
python常用标准库（时间模块time和datetime）
python之logging日志
python之configparser类的使用
Python常用标准库（pickle序列化和JSON序列化）
MySQL（12） - Python+MySQL读取写入图片
MySQL（11） - Python+MySQL开发新闻管理系统
Python 什么是flask框架？快速入门(flask安装，登录，新手三件套，登录认证装饰器，配置文件，路由系统，CBV)

章节导航