您的位置：首页 > 其它

《Mining the massive data》第一章笔记

2016-03-24 16:33 253 查看

《Mining the massive data》第一章笔记

数据挖掘的基本概念

数据挖掘是数据“模型”的发现过程，e.g.统计建模

机器学习vs数据挖掘

一些数据挖掘方法中使用了机器学习算法，如贝叶斯网络， SVM ，决策树，隐马尔科夫模型etc。

机器学习擅长的典型场景是人民对数据中的寻找目标一无所知，如推荐算法。但如果我们队挖掘的目标能够直接描述，机器学习算法并不高效。

数据建模的方法

1）数据汇总：对数据进行简洁的近似汇总描述。e.g. PageRank，聚类

2）特征抽取：从数据中抽取特征，并忽略其他。e.g. 频繁项集，相似性

数据挖掘的统计限制

邦弗朗尼原理（Bonferroni correction）

假设数据随机，计算所寻找事件的期望，如果该期望值显著高于你所希望找到的真实事件的数目，那么寻找到的结果都是臆造的，是统计的假象。

习题

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

《Mining the massive data》 第一章 笔记

《Mining the massive data》 第一章 笔记

习题

《Mining the massive data》第一章笔记

《Mining the massive data》第一章笔记