您的位置：首页 > 其它

经典的文本数据预处理流程

2018-01-15 11:00 204 查看

首先对文本进行分词，因为可以直接用NLTK的分词器，中文的可以用结巴分词

在英文中，往往还需要对单词进行词干提取和词形归一化。在词形归一的过程中如果结合POS Tag可以更好的进行词形归一。

去除停用词，得到最终的词列表

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： NLP

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部