跟着Datawhale动手学数据分析5
很快,这次数据分析的实战项目就到了建模与评估的环节,也是数据分析最重要的部分——输出结果。
文章目录
对数据分析中常用的库进行回顾
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from IPython.display import Image
Pandas 是一个高性能、易使用的数据结构与数据分析库,主要适用于处理以下类型的数据:与 SQL 或 Excel 表类似的,含异构列的表格数据;有序和无序(非固定频率)的时间序列数据;带行列标签的矩阵数据,包括同构或异构型数据;任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记。
NumPy 是一个运行速度非常快的数学库,支持大量的维度数组与矩阵运算,主要用于科学计算,包含:一个强大的N维数组对象 ndarray;广播功能函数;整合 C/C++/Fortran 代码的工具;线性代数、傅里叶变换、随机数生成等功能。
Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。
Seaborn 是基于Matplotlib的Python数据可视化库。它提供了一个高级界面,用于绘制引人入胜且内容丰富的统计图形,在Matplotlib上进行了更高级的API封装,从而使作图更加容易。
Image 是python最基本的图像处理操作。
%matplotlib inline
%matplotlib具体作用是当你调用matplotlib.pyplot的绘图函数plot()进行绘图的时候,或者生成一个figure画布的时候,可以直接在你的python console里面生成图像。
模型搭建
在搭建模型时,需要注意模型的欠拟合和过拟合。
模型欠拟合,即高偏差(high bias),是指模型未训练出数据集的特征,导致模型在训练集、测试集上的精度都很低。
模型过拟合,即高方差(high variance),是指模型训练出包含噪点在内的所有特征,导致模型在训练集的精度很高,但是应用到新数据集时,精度很低。
sklearn的算法选择路径
Image('sklearn.png')
切割训练集和测试集
划分数据有留出法,交叉验证法,自助法。
分层抽样是为了训练/测试集的划分要尽可能保持数据分布的一致性,避免困数据划分过程引入额外的偏差而对最终结果产生影响。
#引入sklearn中切割数据集的方法`train_test_split` from sklearn.model_selection import train_test_split # 一般先取出X和y后再切割,有些情况会使用到未切割的,这时候X和y就可以用 X = train y = train['Survived'] # 对数据集进行切割 #依据标签y,按原数据y中各类比例,分配给train和test,使得train和test中各类数据的比例与原数据集一样。 random_state 相当于随机数种子random.seed() 。 X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0) # 查看数据形状 X_train.shape, X_test.shape
模型创建
from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier
# 默认参数逻辑回归模型 lr = LogisticRegression() lr.fit(X_train, y_train)
#写入代码 LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True, intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1, penalty='l2', random_state=None, solver='liblinear', tol=0.0001, verbose=0, warm_start=False)
print("Training set score: {:.2f}".format(lr.score(X_train, y_train))) print("Testing set score: {:.2f}".format(lr.score(X_test, y_test)))
# 默认参数的随机森林分类模型 rfc = RandomForestClassifier() rfc.fit(X_train, y_train)
RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini', max_depth=None, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1, oob_score=False, random_state=None, verbose=0, warm_start=False
print("Training set score: {:.2f}".format(rfc.score(X_train, y_train))) print("Testing set score: {:.2f}".format(rfc.score(X_test, y_test)))
输出模型预测结果
# 预测标签 pred = lr.predict(X_train) # 此时我们可以看到0和1的数组 pred[:10]
# 预测标签概率 pred_proba = lr.predict_proba(X_train) pred_proba[:10]
模型评估
用10折交叉验证来评估之前的逻辑回归模型
from sklearn.model_selection import cross_val_score
lr = LogisticRegression(C=100) scores = cross_val_score(lr, X_train, y_train, cv=10) scores
混淆矩阵
混淆矩阵是一个 2 维方阵,它主要用于评估二分类问题(例如:预测患或未患心脏病、股票涨或跌等这种只有两类情况的问题)的好坏。你可能会问多分类问题怎么办?实际上,多分类问题依然可以转换为二分类问题进行处理。
from sklearn.metrics import confusion_matrix
# 训练模型 lr = LogisticRegression(C=100) lr.fit(X_train, y_train)
LogisticRegression(C=100, class_weight=None, dual=False, fit_intercept=True, intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1, penalty='l2', random_state=None, solver='liblinear', tol=0.0001, verbose=0, warm_start=False)
# 模型预测结果 pred = lr.predict(X_train) # 混淆矩阵 confusion_matrix(y_train, pred)
from sklearn.metrics import classification_report # 精确率、召回率以及f1-score print(classification_report(y_train, pred))
ROC曲线
接收者操作特征曲线(receiver operating characteristic
curve),是反映敏感性和特异性连续变量的综合指标,roc曲线上每个点反映着对同一信号刺激的感受性。
from sklearn.metrics import roc_curve
fpr, tpr, thresholds = roc_curve(y_test, lr.decision_function(X_test)) plt.plot(fpr, tpr, label="ROC Curve") plt.xlabel("FPR") plt.ylabel("TPR (recall)") # 找到最接近于0的阈值 close_zero = np.argmin(np.abs(thresholds)) plt.plot(fpr[close_zero], tpr[close_zero], 'o', markersize=10, label="threshold zero", fillstyle="none", c='k', mew=2) plt.legend(loc=4)
- 动手学数据分析 Task 1 | Datawhale
- datawhale课程[动手学数据分析]——Task02:数据清洗简述
- datawhale课程[动手学数据分析]——Task01:数据加载及探索性数据分析
- datawhale课程[动手学数据分析]——Task05:模型搭建与评价
- datawhale课程[动手学数据分析]——Task03:数据重构
- Datawhale数据分析课程第一章
- 动手学数据分析Task2 数据清洗及特征处理
- 动手学习数据分析————第二部分
- 动手学习数据分析之模型建立和评估
- 动手学数据分析Task4
- Datawhale零基础入门NLP赛事Task 02: 数据读取与数据分析
- 动手学数据分析Task3
- 动手学习数据分析————第四部分
- DataWhale数据挖掘学习--Task 2 数据分析
- 【学习笔记】Datawhale零基础入门NLP赛事--天池新闻文本分类--Day2数据理解与数据分析
- 学习笔记(09):动手写代码之前必须的准备工作-1.5.第1季第5部分-1.5.6.跟着数据手册学单片机1...
- Datawhale零基础入门NLP-Task2 数据读取与数据分析
- 动手学习数据分析——第一部分
- 动手学数据分析之“数据重构”