您的位置:首页 > 其它

统计分析/机器学习吐血整理最强指南(第二版)

2017-11-12 22:12 288 查看
AI的热潮滚滚袭来,集中爆发的领域则是机器学习特别是深度学习,不了解一下似乎跟不上时代。对于没有基础的人来说,需要找一条渐进的学习路线。IT人都不会太闲,但也要抽出时间来学习,要不然也许不知不觉中就发现自己和外界的热点完全不搭边了。看了网上很多人介绍的学习方法,以下这篇文章算是图文并茂。个人感觉可以先从基本的数学入手,不求证明,起码至少要知道是怎么回事,然后从一些简单的应用入门,不至于太枯燥,接着看基础教学视频和书籍,再尝试实践。至于那些理论造诣较高的书籍,一开始还是不要碰免得打击信心,如果仅仅只是出于个人兴趣或者工作和AI沾点边,以后未必会用到那样追本溯源的理论知识,当然如果确定了要朝这个方向发展,那么自然是免不了要读的。
本文转载自:https://ask.hellobi.com/blog/wetalkdata/6214=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=这是浩彬老撕自己的学习书单,希望能够帮助大家更好更快地理解数据科学,同时也希望继续完善自己。
#关于这份学习清单#我会按照基础到入门给出详细推荐,并且附上个人点评。同时尽量做到各个资料在内容上并不重复(即使内容上有重复,也会在难度上做出区分),希望可以以最直接的方式告诉大家应该怎么选择。Ps:这是第一版学习指南,由于最近时间比较紧张,预计在第二版中会加入业务材料的推荐和更多的学习索引,欢迎关注。
第一版概述:第一版学习指南,主要是基本的学习框架和学习路径,通过第一版书单,相信大家能够建立统计分析/机器学习的整体理论认知。第二版概述:增加了非统计/CS童鞋的入门书籍,增加了机器学习的外文资料介绍,增加了更多行业实践资料,调整了部分书籍的推荐顺序。预计第三版更新:(1)可视化内容;(2)社交网络分析内容;(3)统计分析/机器学习杂谈读物;

0.非相关专业的简单入门

统计分析/机器学习已经不仅仅只是相关专业人士的私藏,现在有更多跨专业的童鞋也希望学习相关知识来提供自身领域的能力,因此这里简单给大家介绍几本简单的入门材料。
0.1 基本《谁说菜鸟不会数据分析》系列 豆瓣评分:7.3-7.5







分别是入门篇,工具篇和SPSS篇。该系列书籍是彩印的,同时入门篇提供了数据分析的基本概念和简单的Excel使用技巧,工具篇和SPSS篇提供了对工具的入门掌握,整个系列的好处是直观简单,能够帮助非相关的专业人士快速建立起对基本概念的认知和基本的数据分析思想,硬要说“缺点”则是过于简单,但对于入门同学来说,这个层面刚刚好。
三本书的内容其实在数据分析基本概念这部分都是存在部分重复,因此可以根据需要先买一本(建议黄色入门篇),如果你还记得多年前学过的基本分析知识,更具现在的工具使用情况可以考虑工具篇(现在的你需要经常Excel,想学习写一份简单的分析报告)或SPSS篇(现在的你,被期望使用一些统计分析方法,有一些稍深入一点的见解)0.2 深入浅出系列统计学,深入浅出数据分析(豆瓣评分8.2,/豆瓣评分7.6)毕竟是基本入门,浩彬老撕认为只选一个系列就足够了。如果你确实想看得更多旁敲侧击,可以看看《深入浅出统计学》,以及《深入浅出数据分析》。相比于《菜鸟》系列,浩彬老撕认为《深入浅出系列》内容稍多,但是行文逻辑相比于《菜鸟》略有发散,个人更建议《菜鸟》系列。




1.先验知识

由于统计学概率论甚至到机器学习会对数学基础有一定要求,所以这里给出一些先验知识的内容推荐,主要是矩阵方面。1.1 课程可汗学院公开课:线性代数课程


可汗学院公开课:线性代数
因为网易公开课有翻译,这里是中文字幕课程链接,这里真要给网易100个赞,字幕做得很好。
“可汗学院(Khan Academy),是由孟加拉裔美国人萨尔曼·可汗创立的一家教育性非营利组织,主旨在于利用网络影片进行免费授课,现有关于数学、历史、金融、物理、化学、生物、天文学等科目的内容,教学影片超过2000段,机构的使命是加快各年龄学生的学习速度。”1.2 参考书籍(1)线性代数 豆瓣评分7.3


清华居余马老师的线性代数教材,比较经典的教材了,里面的知识足够支撑我们后续统计分析和机器学习需要。(2)高等代数 豆瓣评分8.1


相比于线性代数,高等代数更加深入,一般线性代数为非数学专业所用,数学类专业一般学习高等代数。不过一般情况下,线性代数也足够使用了。当然,在后续学习中有些算法也会用到微积分的知识,但是都比较基础,因此遇到不懂的时候直接查资料即可,就没有特定推荐材料了。

2统计分析学习资料

2.1 统计学/概率课程同样推荐可汗学院的统计学和概率课程,而且刚好这两门课程也被网易公开课进行了翻译:(1) 可汗学院公开课:统计学


可汗学院公开课:统计学(2) 可汗学院公开课:概率


可汗学院公开课:概率
这两本课程总体不算太难,适合入门。个人觉得讲授还是蛮有特点的,粗暴直接,另外举的例子也是蛮有趣的。2.2统计学/概率参考书(1)统计学 豆瓣评分8.8
作者William Mendenhall / Terry Sincich


“《统计学(原书第5版)》内容丰富,很少涉及统计学理论的严格数学证明,绝大部分是与实际应用紧密联系的例子和练习,适合作为理工科各专业本科生、研究生的统计学教材,也可作为相关领域研究人员的参考读物。”非常注重实用的统计学课程,偏应用,少数学证明,可读性比较强;

(2)统计学 豆瓣评分7.3
作者:贾俊平,何晓群,金勇进



统计比较通用的入门教材了,不知不觉竟然到了第六版,个人认为也算是兼顾数学证明和应用,可读性没有上面强,但是也非常的通俗易懂,有很多统计学专业的起始教材也会选择这本。

(3)统计推断 豆瓣评分8.8,/英本原本9.2
作者:William Mendenhall / Terry Sincich



非常经典经典的统计学教材,借用介绍“从概率论的基础开始,通过例子与习题的旁征博引,引进了大量近代统计处理的新技术和一些国内同类教材中不常见而又广为使用的分布。其内容既包括工科概率入门、经典统计和现代统计的基础,又加进了不少近代统计中数据处理的实用方法和思想”
可以作为研究生所用教材,有深度,但是作者循序渐进,解释得非常漂亮

3.机器学习资料

3.1机器学习课程强烈推荐Andrew NG吴恩达的斯坦福机器学习课程,英文授课,但是已有完善的中文字幕,内容非常丰富且充实(20节),并且讲解得非常的好,如果你想学习机器学习,一定不能错过!


Coursera地址:Coursera - Free Online Courses From Top Universities网易公开课地址:斯坦福大学公开课 :机器学习课程同时该课程配有课件讲义,同样建议大家在学习视频课程之余多看讲义和习题,虽然是英文,但是阅读上基本没有什么问题,就讲义本身也是非常的棒。如果大家学习完Andrew NG的机器学习,还想通过其他课程触类旁通,相互借鉴的话,可以上Coursera上门搜索还有其他选择,例如台大的机器学习基础等等,但毫无疑问首推Andrew NG的课程;另外现在国内也有越来越多的培训网站推出相关课程,大家有兴趣的可以自己搜搜,这里就不做推荐了;3.2机器学习教材中文系列:(1)机器学习 豆瓣评分8.9作者:周志华


被戏称为《西瓜书》,最好的中文机器学习教材之一(其实我想把之一去掉),作为机器学习的入门教材来说,它不但涵盖内容范围全,同时逻辑清晰,可读性强。并且大部分算法有比较完整的算法推导和伪代码,对于学习掌握非常有帮助。当然,个人觉得如果有该系列的进阶版,能够针对每个算法有进一步的深入应用介绍,那是更好。 (2)统计学习方法  豆瓣评分:8.9作者:李航


个人认为中文教材里面少见的精品。相比于西瓜书,要精简得多,但逻辑非常的清晰,部分算法的讲解要更加优美,可读性要低于《西瓜书》,可能不太适合入门者,但是还是非常值得推荐阅读学习,或与《西瓜书》相互借鉴。 外文系列(3)Pattern Recognition And Machine Learning 豆瓣评分9.6(2007年)作者:Christopher Bishop 


三大机器学习外本经典教材之一,PRML,没太多好说的,经典,好书!相对理论的一本书,不但全面,而且深入!针对于某一算法可能会给于多种介绍和解释,我个人觉得可以作为西瓜书之后的进阶教材。另外,网上有PRML的中文翻译版本,是哈工大马春鹏的自发翻译,但由于牵涉到版权问题,这里不提供链接了,确实有需要的同学相信大家可以找到的。附《关于网上流传的PRML中文翻译稿的声明》http://weibo.com/p/1001603885799136480788
(4)The Elements of Statistical Learning(统计学习基础)
豆瓣英本原版评分9.4(2008年) 中文评分7.4作者:Trevor Hastie


三大机器学习外本经典教材之一,这本书被广大人民喜称为ESL,虽然书名是统计学习基础,但是此书一点都不基础,一点都不~另外此书还有一本专门的入门版本ISL(后面会介绍)这本书涵盖了非常多的内容,讲解深入,有人评价说,“有了这本书就不需要其他机器学习教材”,虽然有点夸张,但是此书实际是机器学习的经典巨作,如果你真的希望好好研究机器学习,此书非常值得仔细研读,另外此书要求不低的统计理论和数学基础。此外,这本书还有一个牛逼的地方在于,作者把书放在网上免费下载:http://statweb.stanford.edu/~tibs/ElemStatLearn/ (5)Machine Learning-A Probabilistic Perspective豆瓣评分 9.3 (2012年)作者:Kevin P. Murphy 


三大机器学习外本经典教材之一,PRML。留意时间线,三本经典教材的出版日期从2007,到2008,再到2012。因此相比于以上两本书,本书的最大特点是“新”,因此内容比PRML和ESL要更广一点,但个人觉得深入度不够前两者。建议是先读前者,MLAPP用于补充。
其他推荐:(1)数据挖掘导论  豆瓣评分8.4,/英本原本8.8作者: Pang-Ning Tan、Michael Steinbach、Vipin Kumar


介绍得非常全面的一本书,但可能因为需要涵盖的内容太多,所以难免有些算法只能简单介绍。尽管这样,个人认为也是非常难得一见的入门教材。相比于《西瓜书》,该书在分类算法上的内容少了不少,而关联规则和聚类算法的内容傲稍多一点,可以选择性相互借鉴阅读,但首推《西瓜书》。

4.SPSS学习资料

考虑到SPSS分为统计模块Statistics以及数据挖掘模块Modeler , 因此也分为两大块介绍4.1SPSS统计分析资料SPSS Statistics 市面上的书籍比较多,从我个人的角度,认为张文彤老师的系列足以让大家加深对统计体系的理解,同时也能很好掌握在实际的应用当中如何使用统计分析帮助我们完成任务,我认为掌握统计分析原理实战和SPSS操作,以下两本书足矣。(1) SPSS统计分析基础教程 豆瓣评分8.4


提供了包括医疗、经济、市场研究等方面的案例贯穿了全书,能够很好从实际应用角度把统计分析原理和SPSS操作结合起来,也提供了很好的结果解读,不失为一本极好的工具指南。(2)高等学校教材(SPSS统计分析高级教程)豆瓣评分7.7


相比于基础教材,高级教程介绍了更多的统计算法模型,同时也提供了一些统计新方法和新观点的讲解。整体来说直观易懂,能够很好提升实战能力。另外张文彤老师也有对应视频课程 《张文彤SPSS初中级教程》以及《张文彤SPSS高级教程》4.2 SPSS机器学习教程(1)Modeler官方的帮助文档和Sample文件


Modeler提供完备Sample数据和数据建模文件,并且配套中文说明,可以帮助入门者一步一步搭建数据建模流并理解实际应用场景。Modeler提供的帮助文档包括有算法说明,节点说明,Crisp-dm方法论,应用文档等,其中比较重要一本如:《IBM SPSS Modler 应用程序指南》(2) IBM SPSS数据分析与挖掘实战案例精粹 豆瓣评分9.3作者:张文彤,钟云飞


非常详尽工具手册,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,尤其是书本最后几章实践案例,从商业问题界定到商业应用,给出了非常详尽的建模指南,个人认为目前市面上Modeler最好的工具手册;另外即使不是使用SPSS,而是用其他工具,该书后面的例子也值得大家研读。

5.R语言学习资料

(1)R语言实战 豆瓣评分8.8作者:Robert I.Kabacoff


首先这本书绝对可以担当日常工具手册,从基本操作,数据处理,数据建模,图形展示都给出了非常详尽的介绍;其次虽然是工具手册,但是能够结合基本统计知识于简单案例,具有很强实践性,强烈建议各位把书中的代码都实现,相信能够大大提升R的功力。最后说一句,此书翻译得不错。(2)An Introduction to Statistical Learning(统计学习导论) 英本版豆瓣评分9.5,中文版7.6作者:Trevor Hastie,Robert Tibshirani ,Jerome Friedman


此书被广大人民群众称为ISL,没错,就是上面ESL的入门版本。无论作为统计教材推荐还是R语言教材推荐都称得上5星的读物。ISL虽然是入门版本,但是绝对不是因为内容简单。深入浅出,内容详细,常常读完有种恍然大悟的感觉,同时能够结合R语言介绍,大大的加分。

6.行业应用资料

前面分别介绍了理论以及工具使用部分,但是要知道数据挖掘领域业务知识和应用场景是非常的重要,因此本部门主要为大家介绍一些行业应用材料。6.1 《数据掘金——电子商务运营突围》豆瓣评分7.3作者:谭磊


书中导读:电商坐拥互联网行业最丰富的用户数据金矿,却很少有人从中挖掘出真金白银。《数据掘金——电子商务运营突围》一书旨在打破这一困境,本书用浅显的文字与独特的视角,不仅成功解读电商数据运营之惑,更呈现大量数据分析和挖掘的必要基础知识及实用相关工具。在通过阅读轻松掌握电商数据运营须关注的要点与方法之后,读者还可有针对性地从书中选择学习如何利用数据来完成——流量获取优化、广告投放、客户分析,以及客户价值提升等一系列电商运营要务。
点评:虽说《数据掘金——电子商务运营突围》一书主要定位是给电商从业人员,但是浩彬老撕相信,当中的一些数据分析逻辑以及技巧,都能够对其他行业的数据分析人员,市场人员,运营人员带来很大的启发。
6.2 《游戏数据分析的艺术》豆瓣评分7.4作者:于洋 / 余敏雄 / 吴娜 / 师胜柱


 
书中导读:《游戏数据分析的艺术》它首次系统讲解了如何对游戏行业的数据进行分析。作者是来自TalkingData等国内顶尖的数据分析机构和西山居这样的知名游戏公司的资深数据分析专家, 对游戏数据从不同的业务角度进行了诠释。本书详细剖析了游戏数据分析相关的指标、方法论、内容挖掘、数据挖掘、软件使用、游戏设计、运营策划、渠道推广、收入解读、用户分析和留存分析等。对于产品设计、开发、运营、推广以及游戏行业的人才培养都将带来巨大的推进作用。点评:游戏行业数据分析比较重要的参考读物。如果是非游戏行业,仅是想学习数据思维,浩彬老撕觉得《游戏数据分析的艺术》要比《数据掘金——电子商务运营突围》略好,因为本书的逻辑性和框架性更强一点。美中不足的可能就是分析角度还是不够深入,同时没能针对工具实现有更详细的说明。6.3 啤酒与尿布豆瓣评分:7.4作者:高勇


书中导读:啤酒和尿布的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!点评:虽然都是讨论行业的分析应用,但与前两者不同的是,本书更偏重于业务以及分析的思维。因此如果你是零售行业从业者,本身相信可以给你带来一些有趣的角度。Ps:此书貌似已经没有再版,有需要的童鞋可能只可以下载电子书和买二手书。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习 统计