python机器学习第八章:集成学习——组合不同模型(自然语言处理)
2019-04-24 19:39
232 查看
词袋模型
https://blog.csdn.net/sinat_29957455/article/details/79920492
CountVectornizer类+TfidfTransformer类=TfidfVertornizer类
tf词频(CountVectorizer类)
tf-idf单词关联度(TfidfTransformer类)
归一化
0. 单词转化成特征向量(CountVectorizer类)
1. if-idf
2.re清洗文本数据
3.标记文档(NLTK库)
词干提取(提取单词原型) 停用词移除
外存学习
分批次学习+随机梯度下降(SGDClassfier)
回顾⼀下第2章中我们曾经介绍过的随机梯度下降(stochastic gradientdescent)的概念,此优化算法每次使⽤⼀个样本更新模型的权重信息。在本节,我们将使⽤scikit-learn中SGDClassifier的partial_fit函数来读取本地存储设备,并且使⽤⼩型⼦批次(minibatches)⽂档来训练⼀个逻辑斯谛回归模型。
在本章中,我们学 习了如何使⽤机器学习算法根据⽂本⽂档的情感倾向对其进⾏分类,这是⾃然语⾔处理领域中情感分析的基本⼯作。我们不仅学习了如何使⽤词袋模型对⽂档进⾏编码,⽽且学习了如何使⽤词频-逆⽂档频率来矫正****词频权重。
在对⽂本进⾏情感分析的过程中,由于⽣成的特征向量巨⼤,导致⽂本数据处理会产⽣较⾼的计算成本。最后⼀节中,我们学习了外存和增量学习算法,它们⽆需将整个数据集同时加载到内存就能够完成对机器学习模型的训练.。
相关文章推荐
- 组合不同算法为一个整体(集成方法)-基于opencv和python的学习笔记(二十二)
- 7076-1.Python机器学习:监督学习模型调用归纳
- 小白学习机器学习---第五章:神经网络简单模型python实现
- Python与机器学习之模型结构(生成学习算法)
- 不同机器学习任务深度学习模型的选择
- 机器学习(周志华) 参考答案 第八章 集成学习 8.5
- 小白学习机器学习---第三章:简单线性模型Python实现
- 【机器学习】python实践笔记 -- 经典监督学习模型之分类学习模型
- 第八章 集成学习-机器学习(周志华) 参考答案
- python机器学习及实践(从零开始kaggle竞赛之路)第二章的2.1.2.5集成模型程序报错:numpy.core._internal.AxisError: axis 0 is out of bo
- 机器学习--集成学习模型比较
- 机器学习(周志华) 参考答案 第八章 集成学习 8.3
- 【机器学习入门二】集成学习及AdaBoost算法的python实现
- 第八章 集成学习-机器学习(周志华) 参考答案
- Python机器学习库SKLearn:监督学习之广义线性模型
- 通过Python3.5来学习几种不同的IO模型
- 机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting
- Python学习-机器学习实战-ch06 支持向量机
- python中使用集成模型,随机森林分类器,梯度提升决策树性能模型分析 可视化
- 深度学习之Python 脚本训练keras mnist 数字识别模型