您的位置:首页 > 编程语言 > Python开发

读书笔记-《Python数据分析与数据挖掘实战》

2016-04-07 11:37 519 查看
第二章 Python数据分析简介
Python数据挖掘相关扩展库
Scikit-Learn

Keras

第二章 Python数据分析简介

Python数据挖掘相关扩展库

扩展库简介
Numpy提供数组支持
Scipy提供矩阵支持,以及矩阵相关的数值计算模块
Matplotlib强大的数据可视化工具、作图库
Pandas强大、灵活的数据分析和探索工具
StatsModels统计建模和计量经济学,包括描述统计、统计模型估计和推断
Scikit-Learn支持回归、分类、聚类等的强大机器学习库
Keras深度学习库,用于建立神经网络以及深度学习模型
Gensim用来做文本主题模型的库,文本挖掘可能用到
Pillow涉及图片处理
OpenCV涉及视频处理
GMPY2涉及高精度运算

Scikit-Learn

所有模型提供的接口有:

model.fit():训练模型,对于监督模型来说是fit(X,y),对于非监督模型是fit(X)。

监督模型提供的接口有:

model.predict(X_new): 预测新样本

model.predict_proba(X_new): 预测概率,仅对某些监督模型有用(比如LR)

model.score(): 得分越高,fit越好

非监督模型提供的接口有:

model.transform(): 从数据中学到新的“基空间”。

model.fit_transform(): 从数据中学到新的基并将这个数据按照这组“基”进行转换。

例子:

# -*- coding: utf-8 -*-
"""
Created on Thu Apr 07 10:28:35 2016

@author: Michael
"""

from sklearn import datasets
iris = datasets.load_iris()
print(iris.data.shape)

from sklearn import svm
clf = svm.LinearSVC()
clf.fit(iris.data,iris.target)
clf.score(iris.data,iris.target)
clf.predict([[5.0,3.6,1.3,0.25]])


结果:

clf.score(iris.data,iris.target)
Out[12]: 0.96666666666666667


Keras

虽然scikit-learn足够强大,但是它并没有包含一种强大的模型——人工神经网络。在语言处理、图像识别等领域有着重要的作用。

值得一提的是Windows下Keras的速度会大打折扣,因此,想要研究神经网络和深度学习方面的读者,需要在Linux下搭建环境。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: