python数据挖掘入门与实践---用图挖掘找到感兴趣的人
2018-03-18 23:00
941 查看
问题:找出一个班级中兴趣爱好相近的人
思路:将每个人的兴趣爱好(足球、篮球、美剧。。。)都列出来,看看那两个或几个人的兴趣爱好重合度高
评价标准:杰卡德相似性系数(Jaccard Similarity);
计算公式:A同学与B同学共同的兴趣爱好数量/A同学与B同学所有的兴趣爱好数量。(可见系数不可能大于1)
图:个体间关系的直观表示,根据要表达的内容分为有向图、无向图等,端点表示个体,端点之间的线(边)表示关系。
python相关模块:networks
延伸:
聚类:当为相似性系数设置一个阈值,即小于该系数的两个同学认定他两没关系,在图中二者之间不划线。可以发现整个 班级会分成几个小团体(个体之间连线较多,团体之间连线较少),这样的小团体又称为连通分支。
阈值的变化,会导致连通分支也跟着变(设为1,一个连通分支都没有)。聚类的效果没有统一标准,不同的视角出 发,对聚类的标准要求不一样。
常用的判断聚类标准:轮廓系数(silhouette coefficient)
计算公式:s=(b-a)/max(a,b),a为簇内距离(个体之间的平均距离,可以通过相似性系数取反表示,因为相似性越高表示二 者距离越近),b为蔟间距离(与最近的蔟内各个体的平均距离)。越大说明团体之间越干净
python相关:s计算函数sklearn.metrics.silhouette_score
通过调整阈值求最大s函数,scipy中minimize函数取反(取反使实际是求最小值,但最后结果是求了s的最大值)
思路:将每个人的兴趣爱好(足球、篮球、美剧。。。)都列出来,看看那两个或几个人的兴趣爱好重合度高
评价标准:杰卡德相似性系数(Jaccard Similarity);
计算公式:A同学与B同学共同的兴趣爱好数量/A同学与B同学所有的兴趣爱好数量。(可见系数不可能大于1)
图:个体间关系的直观表示,根据要表达的内容分为有向图、无向图等,端点表示个体,端点之间的线(边)表示关系。
python相关模块:networks
延伸:
聚类:当为相似性系数设置一个阈值,即小于该系数的两个同学认定他两没关系,在图中二者之间不划线。可以发现整个 班级会分成几个小团体(个体之间连线较多,团体之间连线较少),这样的小团体又称为连通分支。
阈值的变化,会导致连通分支也跟着变(设为1,一个连通分支都没有)。聚类的效果没有统一标准,不同的视角出 发,对聚类的标准要求不一样。
常用的判断聚类标准:轮廓系数(silhouette coefficient)
计算公式:s=(b-a)/max(a,b),a为簇内距离(个体之间的平均距离,可以通过相似性系数取反表示,因为相似性越高表示二 者距离越近),b为蔟间距离(与最近的蔟内各个体的平均距离)。越大说明团体之间越干净
python相关:s计算函数sklearn.metrics.silhouette_score
通过调整阈值求最大s函数,scipy中minimize函数取反(取反使实际是求最小值,但最后结果是求了s的最大值)
相关文章推荐
- Python数据挖掘入门与实践一:计算支持度和置信度
- python数据挖掘入门与实践
- Learning Data Mining with Python-《Python数据挖掘入门与实践》学习后的分享
- 《Python数据挖掘入门与实践》高清中文版+高清英文版+源代码
- 【python】《Python数据挖掘入门与实践》实验环境搭建
- 《python数据挖掘入门与实践》笔记1
- 支持度与置信度(找出所有规则)--《python数据挖掘入门与实践》
- python_tweets.json (python数据挖掘入门与实践数据集下载)
- 《python数据挖掘入门与实践》“电影推荐” 笔记3
- Python数据挖掘入门与实践 彩图 pdf
- Python数据挖掘入门与实践(一)——亲和性分析
- Python数据挖掘入门与实践pdf
- 《python数据挖掘入门与实践》决策树预测nba数据集
- 支持度与置信度(基本示例)--《python数据挖掘入门与实践》
- 《python数据挖掘入门与实践》笔记2
- 分享《Python数据挖掘入门与实践》高清中文版+高清英文版+源代码
- Python数据挖掘入门与实践(二)——scikit-learn数据的预处理转换器以及流水线
- python数据挖掘入门与实践---作者归属问题
- Python数据挖掘入门与实践(二)——用scikit-learn估计器分类
- Python数据挖掘入门与实践(四)——亲和性分析