您的位置:首页 > 其它

姚编辑看教材系列文章之二 数据挖掘与机器学习

2008-03-19 16:40 369 查看
对于“数据挖掘”,有多种文字不同但含义接近的定义,但简单来说 ,可以归纳为“试图从海量数据中找出有用的知识”。在学术界,有时也将“数据挖掘”(DM)称为“数据库中的知识发现”(KDD)。而“机器学习”是人工智能的核心研究领域之一,目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”。
南京大学的周志华教授曾专门撰文论述了数据挖掘和机器学习以及数据库之间的关系,他提出:数据挖掘可以视为机器学习和数据库的交叉,主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。
组成数据挖掘的三大支柱包括统计学、机器学习和数据库等领域内的研究成果,其它还包含了可视化、信息科学等内容。不同的教材从不同的方面结合其基础学科知识讲述数据挖掘技术,不同专业和技术背景的学生或数据挖掘研究人员和应用人员可以根据自身的专业方向选择不同的数据挖掘切入点。下面就简单归纳目前比较主流的数据挖掘和机器学习方面的教材。

1. Data Mining:Concepts and techniques by Jiawei Han (Morgan Kaufmann)
主要从数据库的角度(数据管理和数据计算的角度)讲解数据挖掘,作者Jiawei Han是数据挖掘领域的华人第一人,现任UIUC CS Dept.的教授。本书对数据挖掘基本概念、算法及其相关技术有比较全面的阐述,是国内大多数高校上课指定教材,而且不要求太高的数学基础,对那些数学功底一般的学生非常适合。

2.Introduction to Data Mining by Pang-Ning Tan, Michael Steinbach, Vipin Kumar (Addison Wesley)
也是从数据库的角度讲解数据挖掘,内容编排合理,由浅入深,由数据、分类、关联规则、聚类到异常检测的内容组织很符合学生的学习及认识规律,易于组织教学。且分类、关联、聚类的内容分两章介绍,一章为基本主题,另一章为提高主题,便于教师进行教学内容的组织及选择。

3. Data Mining: Practical Machine Learning Tools and Techniques by Ian H. Witten, Eibe Frank(Morgan Kaufmann)
主要从机器学习的角度,也有称从数据挖掘的应用实现角度来讲解数据挖掘,描述了各种算法、模型及其Java实现,重点是以应用的观点利用case来说明数据挖掘的算法模型,对于具体算法的原理介绍不是非常详细。它对数据挖掘的Java软件包Weka有比较深的介绍。作者们都是weka项目组主要成员。

4. Principles of Data Mining by David J. Hand (MIT Press)
主要从统计学的角度来解析数据挖掘以及其与统计的关系。其中如建模、测量、评分函数、模型等术语都是从统计者的角度出发,书中并没有具体的说明KDD与DM之间的关系。比较易于统计系和数学系的学生采用。

5. Machine Learning by Tom Mitchell (McGraw-Hill)
CMU等许多国际知名大学机器学习课程的教材。目前发表的各种机器学习专著或论文基本都会引用这本书的内容。作者Tom Mitchell是CMU的教授,美国人工智能协会的主席,《机器学习》杂志和国际机器学习年度会议的创始人,在ML领域久负盛名。本书也是最经典和采用率最高的机器学习教材。本书需要的数学基础也很少,但对必要的背景介绍相当丰富,非常适合初学者。

6. Introduction to Machine Learning by Ethem Alpaydin (MIT Press)
在Tom Mitchell大作光辉映衬下不太引人注目的一本机器学习导论课教材,讲述基于统计学、数据挖掘、模式识别、神经网络、人工智能和信号处理控制的机器学习方法。

7.Pattern Recognition and Machine Learning by Christopher M. Bishop(Springer)
一本新书,作者是英国剑桥微软研究院的副主管,爱丁堡大学计算机教授。本书全面讲解模式识别和机器学习领域的基本理论和业界的最新发展(如概率图模型、确定性推理方法),强调贝叶斯统计推理的方法,图解清晰、推理详细,习题和联系非常丰富。需要微积分、线性代数和统计学方面的预备知识。

8.The elements of statistical learning by T. Hastie,R. Tibshirani,J. H. Friedman(Springer)
强调贝叶斯统计,对于初学者比较困难,要求读者具备机器学习的一些经验和工程数学背景。

9.Pattern classification by Richard O. Duda, Peter E. Hart, David G. Stork (John Wiley & Sons)
关注分类而不是回归,难度比较大,不适合初学者学习,也要求读者具有相当的数学基础和工程背景。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐