基于python 等频分箱qcut问题的解决
2020-04-06 12:06
2581 查看
在python 较新的版本中,pandas.qcut()这个函数中是有duplicates这个参数的,它能解决在等频分箱中遇到的重复值过多引起报错的问题;
在比较旧版本的python中,提供一下解决办法:
import pandas as pd def pct_rank_qcut(series, n): ''' series:要分箱的列 n:箱子数 ''' edages = pd.series([i/n for i in range(n)] # 转换成百分比 func = lambda x: (edages >= x).argmax() #函数:(edages >= x)返回fasle/true列表中第一次出现true的索引值 return series.rank(pct=1).astype(float).apply(func) #series.rank(pct=1)每个值对应的百分位数,最终返回对应的组数;rank()函数传入的数据类型若为object,结果会有问题,因此进行了astype
补充拓展:Python数据离散化:等宽及等频
在处理数据时,我们往往需要将连续性变量进行离散化,最常用的方式便是等宽离散化,等频离散化,在此处我们讨论离散化的概念,只给出在python中的实现以供参考
1. 等宽离散化
使用pandas中的cut()函数进行划分
import numpy as np import pandas as pd # Discretization: Equal Width # # Datas: Sample * Feature def Discretization_EqualWidth(K, Datas, FeatureNumber): DisDatas = np.zeros_like(Datas) for i in range(FeatureNumber): DisOneFeature = pd.cut(Datas[:, i], K, labels=range(1, K+1)) DisDatas[:, i] = DisOneFeature return DisDatas
2. 等频离散化
pandas中有qcut()可以使用,但是边界易出现重复值,如果为了删除重复值设置 duplicates=‘drop',则易出现于分片个数少于指定个数的问题,因此在此处不使用qcut()
import numpy as np import pandas as pd # Discretization: Equal Frequency # # vector: single feature def Rank_qcut(vector, K): quantile = np.array([float(i) / K for i in range(K + 1)]) # Quantile: K+1 values funBounder = lambda x: (quantile >= x).argmax() return vector.rank(pct=True).apply(funBounder) # Discretization: Equal Frequency # # Datas: Sample * Feature def Discretization_EqualFrequency(K, Datas, FeatureNumber): DisDatas = np.zeros_like(Datas) w = [float(i) / K for i in range(K + 1)] for i in range(FeatureNumber): DisOneFeature = Rank_qcut(pd.Series(Datas[:, i]), K) #print(DisOneFeature) DisDatas[:, i] = DisOneFeature return DisDatas
以上这篇基于python 等频分箱qcut问题的解决就是小编分享给大家的全部内容了,希望能给大家一个参考
您可能感兴趣的文章:
相关文章推荐
- Python基于动态规划算法解决01背包问题实例
- Python基于回溯法子集树模板解决全排列问题示例
- 基于Linux系统中python matplotlib画图的中文显示问题的解决方法
- Python基于贪心算法解决背包问题示例
- 解决基于BAE python+bottle开发上的一系列问题
- 基于Python安装pyecharts所遇的问题及解决方法
- Python基于回溯法解决01背包问题实例
- 解决基于BAE python+bottle开发上的一系列问题 - artwebs - 博客频道 - CSDN.NET
- 基于python发送邮件的乱码问题的解决办法
- Python基于回溯法子集树模板解决找零问题示例
- Python基于回溯法子集树模板解决m着色问题示例
- Python基于回溯法子集树模板解决最佳作业调度问题示例
- python - 用遗传算法解决0-1背包问题,遗传算法是基于概率论的,因此不一定能一次命中最优解
- python基于递归解决背包问题详解
- python被修饰的函数消失问题解决(基于wraps函数)
- Python基于回溯法子集树模板解决野人与传教士问题示例
- 基于python发送邮件的乱码问题的解决办法
- Python基于回溯法子集树模板解决取物搭配问题实例
- 基于java的程序OutOfMemory问题的解决及Xms/Xmx/Xss的解释和应用
- 基于java的程序OutOfMemory问题的解决及Xms/Xmx/Xss的解释和应用