您的位置:首页 > 其它

经典的文本数据预处理流程

2018-01-15 11:00 204 查看


首先对文本进行分词,因为可以直接用NLTK的分词器,中文的可以用结巴分词

在英文中,往往还需要对单词进行词干提取和词形归一化。在词形归一的过程中如果结合POS Tag可以更好的进行词形归一。

去除停用词,得到最终的词列表
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  NLP