您的位置:首页 > 其它

数据科学工具Weka的学习路径

2016-06-30 10:51 183 查看
在这个R和Python主宰数据科学的时代,我们来看一下另一个叫做Weka的数据科学工具。Weka已经出现了一段时间,是在Waitako大学为了研究的目的而内部发展的。简单的学习曲线使得Weka具有尝试的价值。

对于一个很久没有编码的人来说,Weka和它的图形用户界面提供了一个最简单的过渡到数据科学的世界。因为是由JAVA编写的,有JAVA经验的人也把它称作他们编码的图书馆。

个人来讲,当我在Waitako大学上课时第一次接触数据科学。这门课是一个很好的介绍,并且给了我一个轻松的过渡到数据科学的机会。后来当我不得不解决更大的问题时,我转而使用R。所以我强烈推荐那些想要进入数据的世界的人把Weka当作一个入门学习工具。

下面是学习Weka的路线,它会帮助你以更好更具体的方式来理解这些概念。

1、什么是Weka,为什么要使用它?

根据Wikipedia:“Weka是对于解决数据挖掘任务的机器学习算法的一个集合。这些算法技能直接被应用到一个数据集,也可以从你自己的JAVA编码被调用。Weka是包含数据预处理、分类、回归、收集、关联规则和形象化的工具”。



你可能想要看一下这个来自Brandon Weinberg的视频(https://www.youtube.com/watch?v=m7kpIBGEdkI)。这个视频会给予你对于这个神奇的工具相当大的洞察力。通过这个视频你可能不会理解所有的东西,但也会懂得如何学习这些东西。

2、使用机器

既然我们已经熟悉了Weka,就可以进入下一步了。关于这个工具更多的了解和它成功背后的人们,你可以看一下这个关于Project Weka的网页(http://www.cs.waikato.ac.nz/ml/index.html)。甚至,你也可以下载这个软件,从这个链接(http://www.cs.waikato.ac.nz/ml/weka/downloading.html)选择适合你系统的最新版本。

3、学习Weka的基础

开始学习Weka最好的方法是使用由Waikato大学提供的大规模在线开放课程(MOOC)。Weka的数据挖掘是一个评分很高的课程,但它到现在还不可获得。然而,不用担心,在这种情形下你可以在YouTube(https://www.youtube.com/user/WekaMOOC)上获得这些课程的视频。这个课程的官方链接点击这里(https://weka.waikato.ac.nz/explorer)。需要用到的数据集可以从这个链接(http://www.cs.waikato.ac.nz/ml/weka/datasets.html)下载。这篇文章里有数据集的进一步链接。Weka以ARFF的格式存储数据。以防数据不是ARFF格式,通过这个视频(https://www.youtube.com/watch?v=tS6qFxNDrMc)的帮助,你可以把它从CSV格式转换成ARFF格式。

4、数据集

我们已经对这个课程提供的数据集进行了操作,接下来尝试对由Kaggle(https://www.kaggle.com/c/titanic-gettingStarted)提供的新数据进行操作。因为数据格式可能是CSV,所以为了我们能在Weka界面上阅读,要把它转化为ARFF格式。在做完这些步骤后,我们已经得到了足够的技能来使用Weka图形用户界面来操作和分析数据集。访问MOOC链接的人可能已经看见“Weka数据挖掘”这门课了。

5、Weka数据挖掘

在这里,使用这个软件的一些更高级的功能已经被讨论了。它通过使用以前的课程来建立经验,这是一个先决条件。

YouTube系列:

除了这门课程,你可能想要从Rushdi Shams(https://www.youtube.com/playlist?list=PLJbE6j2EG1pZnBhOg3_Rb63WLCprtyJag)看一下这个演讲系列。一共有38个演讲。在最初的两三个视频里,如果你发现和以前的课程有些相似的话你可以跳跃一下看。这些课程被建立在各种各样的技巧之上,它们是以前提供系列的的补充。

Weka新闻:

在Reddit上有一些关于Weka(http://www.reddit.com/search?q=Weka+)的有趣的讨论。仔细检查一下上面的链接、收集关于Weka的新闻和它是怎样被他人所使用的做法是明智的。这可以给Weka之后下一个可能的步骤足够的观点。

6、Weka 命令行

下一步:截至目前,我们已经依赖于Weka,并使用Weka图形用户界面。截至目前,课程依赖于这个图形用户界面是因为那些有JAVA工程经验的人能够依赖并使用Weka从JAVA内部编码。这是有用的,因为尝试和解决大数据集脚本帮助使你的工作自动化。而且,JAVA使用Hadoop框架,所以Weka也能被用于大数据。你能够了解更多在大数据中使用Weka的案例(http://www.cs.waikato.ac.nz/ml/weka/bigdata.html)。

对Weka感兴趣的人可以尝试由Dr Noureddin Sadawi(https://www.youtube.com/user/DrNoureddinSadawi)主讲的演讲系列。你可能也想要检查Weka的应用编程接口教程列表(https://www.youtube.com/playlist?list=PLea0WJq13cnBVfsPVNyRAus2NK-KhCuzJ)。重点是在JAVA编码内部获得Weka的应用编程接口,它重复了上述的一些概念但是我们使用Weka利用一个命令行界面。

7、Word2Vec 挑战

在对Weka已经有了一个很好的了解之后,我们来看一个情感分析案例。有一个小的数据集,它的大小大约25MB。能通过使用Weka图形用户界面来处理。对于大于40MB的数据集,我们需要使用命令行方法。这个讨论(https://www.reddit.com/r/MachineLearning/comments/13w6yi/text_mining_with_weka_java_api/)可能对你是有用的。

这个学习路径是Abhinav Unnam提供的,他去年在我们这实习。Abhinav现在正读IIT Roorkee的双学位课程,IIT Roorkee是最好的工程学院之一。他选择Weka开始他的机器学习旅程并且很享受使用R参加Kaggle竞赛。

数据分析网原创,转载请注明来自“数据分析网”并保留链接。

编译:数据分析网翻译小组成员—于海燕,一名数学系研究生,正在学习SPSS、R语言等。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: