您的位置:首页 > 编程语言 > Python开发

python机器学习第八章:集成学习——组合不同模型(自然语言处理)

2019-04-24 19:39 232 查看

词袋模型

https://blog.csdn.net/sinat_29957455/article/details/79920492
CountVectornizer类+TfidfTransformer类=TfidfVertornizer类
tf词频(CountVectorizer类)
tf-idf单词关联度(TfidfTransformer类)
归一化

0. 单词转化成特征向量(CountVectorizer类)

1. if-idf

2.re清洗文本数据

3.标记文档(NLTK库)

词干提取(提取单词原型) 停用词移除

外存学习

分批次学习+随机梯度下降(SGDClassfier)
回顾⼀下第2章中我们曾经介绍过的随机梯度下降(stochastic gradientdescent)的概念,此优化算法每次使⽤⼀个样本更新模型的权重信息。在本节,我们将使⽤scikit-learn中SGDClassifier的partial_fit函数来读取本地存储设备,并且使⽤⼩型⼦批次(minibatches)⽂档来训练⼀个逻辑斯谛回归模型。

在本章中,我们学 习了如何使⽤机器学习算法根据⽂本⽂档的情感倾向对其进⾏分类,这是⾃然语⾔处理领域中情感分析的基本⼯作。我们不仅学习了如何使⽤词袋模型对⽂档进⾏编码,⽽且学习了如何使⽤词频-逆⽂档频率矫正****词频权重
在对⽂本进⾏情感分析的过程中,由于⽣成的特征向量巨⼤,导致⽂本数据处理会产⽣较⾼的计算成本。最后⼀节中,我们学习了外存和增量学习算法,它们⽆需将整个数据集同时加载到内存就能够完成对机器学习模型的训练.。

4000
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: