您的位置:首页 > 其它

数据挖掘与知识发现领域研修建议

2014-11-15 22:00 387 查看
(2008 年 12 月,2009 年 5、12 月,2010 年 3、6、8 月修改,铁人版)

整个研修分两个阶段进行。其中第一阶段为课程学习阶段;主要进行数据挖

掘基础理论、应用软件使用及程序设计两部分内容的学习。第二阶段为专题理论

及应用研究阶段;是在第一阶段基础理论学习的基础上,选定数据挖掘与知识发

现的某一领域进行深入研修,主要进行科学研究和实际应用训练。

大约需要花费两至三年的时间完成研修。可以根据学生的具体情况穿插滚动

式进行。由于预计学生需要补习的数学等方面的知识较多且时间有限,因此采用

非常规的研修方式——直接切入数据挖掘技术主题,对于所需数学知识采取缺什

么补什么的方式来弥补。

第一阶段主要是以下几门(组)课程的学习:

一、数据挖掘导论

大约需要 4 个月时间。

1.学习《数据挖掘导论》课程,完成习题若干。

2.学习使用 Weka【注】或其他应用软件完成至少 4 个课程项目。

部分参考书目

◆ Jiawei Han, M. Kamber, Data Mining: Concepts and Techniques, 2nd Edition

◇ Max Bramer, Principles of Data Mining

◇ D. J. Hand, H. Mannila, P. Smyth, Principles of Data Mining

◇ D. T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining

◆ Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining

◆ Data Mining: Practical Machine Learning Tools and Techniques, 2nd Edition

◇ Soumen Chakrabarti, Earl Cox, et al., Data Mining: Know It All

◇ S. Sumathi, S.N. Sivanandam,

Introduction to Data Mining and its Applications

二、数据挖掘技术数学基础

大约需要6个月时间(基础为Set Theory, Linear Algebra, and Probability Theory)。

1.学习《模式识别》和研读《Pattern Classification》。

2.研读《Cluster Analysis》第4版。

3.学习 PCA、FA、LDA和ICA 等多元统计分析知识。

4.完成《模式识别》全部习题以及CA、ICA等至少 4 个课程项目。 2

部分参考书目

◆ Duda R. O., Hart P. E., Stork D. G., Pattern Classification, 2nd Edition

◆ Theodoridis S., Koutroumbas K., Pattern Recognition, 4th Edition

◇ S. Theodoridis, A. Pikrakis, K. Koutroumbas, D. Cavouras

Introduction to Pattern Recognition: A MATLAB® Approach

◇ K. Fukunaga, Introduction to Statistical Pattern Recognition, 2nd Edition

◇ A. R. Webb, Statistical Pattern Recognition, 2nd Edition

◇ J. P. Marques de Sá, Pattern Recognition: Concepts, Methods and Applications

◇ Neil H. Timm,

Applied Multivariate Analysis

◇ Wolfgang Härdle and Léopold Simar,

Applied Multivariate Statistical Analysis, 2nd Edition

◇ Narayan C. Giri,

Multivariate Statistical Analysis, 2nd Edition, Revised and Expanded

◆ Aapo Hyvärinen, Juha Karhunen, Erkki Oja, Independent Component Analysis

◇ I. T. Jolliffe, Principal Component Analysis, 2nd Edition

◇ Brian S. Everitt, Cluster Analysis, 4th Edition

三、数据挖掘技术高级课程

大约需要4 个月时间。

1.学习《The Top Ten Algorithms in Data Mining》。

2.研读《Machine Learning》。

3.完成《Machine Learning》课程项目4 个。

部分参考书目

◆ Vapnik V. N., Statistical Learning Theory

◆ Vapnik V. N., The Nature of Statistical Learning Theory, 2nd Edition

◇ Christopher M. Bishop, Pattern Recognition and Machine Learning

◆ Trevor Hastie, Robert Tibshirani, Jerome Friedman, 2nd Edition

The Elements of Statistical Learning: Data Mining, Inference and Prediction

◇ Ethem Alpaydm, Introduction to Machine Learning, 2nd Edition

四、专题(任选)

大约需要 3~4个月时间。

学习有关 DM 理论与技术的发展趋势以及在相关领域的应用。例如文本挖掘、

Web挖掘、图像挖掘和视频挖掘、地理数据挖掘、可视化数据挖掘等;同时继续

研读 SVM、EM 以及 GA、GP 等专题内容的若干本英文原著与学术论文,深入

理解和掌握相关理论与技术。 3

部分参考书目

◇ Geoffrey J. McLachlan, David Peel, Finite Mixture Models

◇ McLachlan G. J., Krishnan T., The EM Algorithm and Extensions, 2nd Edition

◇ Teuvo Kohonen, Self-Organizing Maps, 3rd Edition

◇ Harvey J. Mille, Jiawei Han,

Geographic Data Mining and Knowledge Discovery, 2nd Edition

◇ Antonio Mucherino, Petraq J. Papajorgji, Panos M. Pardalos,

Data Mining in Agriculture

◇ Yee Leung, Knowledge Discovery in Spatial Data

◇ Ingo Steinwart and Andreas Christmann, Support Vector Machines

◆ Nello Cristianini and John Shawe-Taylor,

An Introduction to Support Vector Machines and

Other Kernel-based Learning Methods

◇ Sholom M. Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau,

Text Mining: Predictive Methods for Analyzing Unstructured Information

◇ Michael W. Berry and Jacob Kogan,

Text Mining: Applications and Theory

◇ Ashok N. Srivastava and Mehran Sahami,

Text Mining: Classification, Clustering, and Applications

第二阶段研修任务主要有以下几项内容:

一、选择并确定数据挖掘及其应用的某个领域为主攻方向;

二、阅读文献、撰写综述、制作演示文稿并在一定范围内作研究开题报告;

三、撰写论文(基本要求为能在国内核心刊物上公开发表);

四、申请相应的研究课题或报考博士研究生。

这份建议比较适合数学基础较好,特别是对概率论与数理统计、集合论、模

糊理论、粗糙集、矩阵分析、最优化方法等相关数学分支,以及计算智能感兴趣

的学生。

标记为◆的参考书可能有影印版或中文翻译版。

【注】 Weka软件用 Java编写,也可以采用其他语言的类似软件乃至一些商用软件。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: