您的位置:首页 > 其它

数据挖掘简要概念

2014-06-08 22:03 127 查看
1、单条信息的查找成为信息检索。
2、百分位数的概念
统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。
例如,当一个学生的成绩为54分,对应70%百分位数,则我们可以知道有70个人的成绩是小于54分的。
3、截断均值
指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据。
4、注意离群点对均值的影响很大。
5、极差=最大值-最小值
6、几种度量定义

7、协方差
协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

8、可视化数据挖掘技术
9、数据排列的重要性
10、分类和回归的区别。一个是离散的,一个是连续的。
11、分类的定义:得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y。
目标函数也成为分类模型。
12、描述性建模和预测性建模。
13、分类方法:决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法。
14、数据挖掘软件:weka

热门词
分词
关联关系分析

IT部落格(http://www.itbuluoge.com)-快乐快速学习,专注于免费编程教程,在线编程,IT面试笔记,IT面试经验
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: