一个普通数据挖掘工程师的成长之路摘要
2015-11-05 15:26
429 查看
不是我的个人经历,但是他的经历我觉得对有些人还是值得借鉴的:
本科spss课
英语四六级
SQL
善用英文搜索
在搜索文献的过程中,我喜欢上了经济学人的《graphic details》栏目,发现他们绘制的图非常漂亮、专业,然后我就开始学习excel,尽自己所能将excel图表做的更漂亮更专业,这些经历为我日后做数据可视化打下了坚实的基础,我知道了商务色彩搭配及图表的综合简洁等,我知道怎么将自己与别人做的图表专业的区分开来。后来看了大前研一先生的著作,了解到了专业精神,我曾经写下这样一句话,以此勉励自己:
为了快速上手,熟悉统计学知识,我并没有马上深入的学习R,而是快开始学习spss,原因是对于无知的我这种傻瓜软件更容易上手。于是SPSS帮助我巩固了统计学知识,当简单的统计知识学习完成后,我发现SPSS不够灵活,很多功能也不够用,做的图表和excel一样难看(这对于我来说是无法忍受的),因此网络上有一堆人鄙视,但很推崇R。于是我决定要深入的学习R,我先将SPSS的功能在R里面做了一遍,积累了一些自己的理解,我开始想在自己的论文里做一些数据分析的内容。
现在想来如果我直接实战学习可能会节省更多的时间。
公司当时做BI(商业智能),于是我接触了市面上常见的BI,包括tableau、QV等等BI软件,我熟悉他们的优劣势,也熟悉他们的数据可视化效果。曾经试图将R的页面融入到BI中,这个时候我熟悉了shiny包,做了一些页面,但我渐渐了解到R作为统计语言做这些通用语言的工作时所暴露的缺点,开始接触python。
闲暇时间开始学习中文文本挖掘的内容,没有成型的数据和书,我就看帖子,去一个一个的实现,然后积累经验,这时我的R语言操作算的上非常熟练了,从实现到速度优化(并行计算等等)知识已经非常熟练,积累的代码也非常多了。
后来那个经理找我做医院处方数据的挖掘,先给他做一个shiny的demo。我给他做了,没有收一分钱。再后来他请我去他公司负责法院文本挖掘,我没去。但成了他们的外援,仍然没收到钱,他们给这边搭建的一台服务器也帮助我了解了不少Linux的知识。
另外我在公交上读完了《Data
Mining with R learning by case studies》、《Machine Learning for Hackers》、《R Graphics Cookbook》等书籍,之所以提这三本书是因为我不止一遍的读,这三本书很有特色,前者帮助我学习了各种算法,中间的帮我接触了实际应用中的知识,后者帮我熟练了ggplot的函数及图表元素结构。我开始学会利用零散的时间,坚持积累也开始学习高度自律。
本科spss课
英语四六级
SQL
善用英文搜索
在搜索文献的过程中,我喜欢上了经济学人的《graphic details》栏目,发现他们绘制的图非常漂亮、专业,然后我就开始学习excel,尽自己所能将excel图表做的更漂亮更专业,这些经历为我日后做数据可视化打下了坚实的基础,我知道了商务色彩搭配及图表的综合简洁等,我知道怎么将自己与别人做的图表专业的区分开来。后来看了大前研一先生的著作,了解到了专业精神,我曾经写下这样一句话,以此勉励自己:
所谓专业即每一个细节都经得起推敲
为了快速上手,熟悉统计学知识,我并没有马上深入的学习R,而是快开始学习spss,原因是对于无知的我这种傻瓜软件更容易上手。于是SPSS帮助我巩固了统计学知识,当简单的统计知识学习完成后,我发现SPSS不够灵活,很多功能也不够用,做的图表和excel一样难看(这对于我来说是无法忍受的),因此网络上有一堆人鄙视,但很推崇R。于是我决定要深入的学习R,我先将SPSS的功能在R里面做了一遍,积累了一些自己的理解,我开始想在自己的论文里做一些数据分析的内容。
现在想来如果我直接实战学习可能会节省更多的时间。
实战更能锻炼技能水平。
公司当时做BI(商业智能),于是我接触了市面上常见的BI,包括tableau、QV等等BI软件,我熟悉他们的优劣势,也熟悉他们的数据可视化效果。曾经试图将R的页面融入到BI中,这个时候我熟悉了shiny包,做了一些页面,但我渐渐了解到R作为统计语言做这些通用语言的工作时所暴露的缺点,开始接触python。
闲暇时间开始学习中文文本挖掘的内容,没有成型的数据和书,我就看帖子,去一个一个的实现,然后积累经验,这时我的R语言操作算的上非常熟练了,从实现到速度优化(并行计算等等)知识已经非常熟练,积累的代码也非常多了。
后来那个经理找我做医院处方数据的挖掘,先给他做一个shiny的demo。我给他做了,没有收一分钱。再后来他请我去他公司负责法院文本挖掘,我没去。但成了他们的外援,仍然没收到钱,他们给这边搭建的一台服务器也帮助我了解了不少Linux的知识。
刚开始锻炼自己的机会远远比钱重要,反正自己闲着也是闲着,但是这种情况只适用于刚开始。
另外我在公交上读完了《Data
Mining with R learning by case studies》、《Machine Learning for Hackers》、《R Graphics Cookbook》等书籍,之所以提这三本书是因为我不止一遍的读,这三本书很有特色,前者帮助我学习了各种算法,中间的帮我接触了实际应用中的知识,后者帮我熟练了ggplot的函数及图表元素结构。我开始学会利用零散的时间,坚持积累也开始学习高度自律。
相关文章推荐
- JavaScript高级程序设计之DOM 扩展之HTML5之插入标记第11.3.6讲
- Intent中的四个重要属性——Action、Data、Category、Extras
- Java中栈使用ArrayDeque或LinkedList的性能会更加出色
- 利用Delphi的“File Of Type”创建并管理属于你自己的“数据库”
- 零长度的数组巧用
- Scala教程(十八)并发编程详解
- 黑马程序员—Java基础—集合框架3
- 老李秘技:loadrunner11.5支持net4.0么?
- touch命令
- HDP,CDH和PHD
- MFC相关函数代码
- HashSet和TreeSet中最好只放入不可变对象
- POJ 1465 Multiple(用BFS求能组成的n的最小倍数)
- Android Resource概述
- 国密SKF接口函数介绍之一:设备管理函数
- 使用sqlload批量导入数据
- Windows Server 2008 R2与LoadRunner
- 获取全国市以及地理坐标,各大坐标系北斗,百度,WGS-84坐标系的转换,有图,有代码
- IIS服务器允许跨域配置
- 女子开跑车送外卖 半年从月入1500变15万