您的位置：首页 > Web前端 > HTML

To remove HTML markup, use BeautifulSoup's get_text() function解决方案

2016-03-09 16:10 831 查看

在学习python自然语言处理第三章处理html一节中，按照书上所示代码

raw = nltk.clean_html(html)
tokens = nltk.word_tokenize(raw)

会产生错误，NotImplementedError: To remove HTML markup, use BeautifulSoup’s get_text() function，原因是nltk在BeautifulSoup在相同方面做出了更好了成果之后，自己删除了相应的同类函数，可以用BeautifulSoup中的相应函数进行替代，所以上图的代码可以改为

raw = BeautifulSoup(html).get_text()
tokens = nltk.word_tokenize(raw)

便不会产生错误

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 自然语言处理

相关文章推荐

Python动态类型的学习---引用的理解
Python3写爬虫（四）多线程实现数据爬取
垃圾邮件过滤器 python简单实现
下载并遍历 names.txt 文件，输出长度最长的回文人名。
install and upgrade scrapy
Scrapy的架构介绍
Centos6 编译安装Python
使用Python生成Excel格式的图片
让Python文件也可以当bat文件运行
[Python]推算数独
Python中zip()函数用法举例
Python中map()函数浅析
Python将excel导入到mysql中
Python在CAM软件Genesis2000中的应用
使用Shiboken为C++和Qt库创建Python绑定
FREEBASIC 编译可被python调用的dll函数示例
Python 七步捉虫法

新的分享

Html简单标签
HTML表单
仿京东商城html网页源码
HTML行内级元素之间的空格问题
HTML元素类型总结
HTML怎么设置下划线?html文字加下划线方法
HTML汉字编码标准介绍
html网页中使用希腊字母的方法
HTML基础详解(上)
HTML基础详解（下）
基于HTML十秒做出淘宝页面
【Python】300行代码搞定HTML模板渲染

章节导航