您的位置:首页 > 大数据

大数据技术学习路线指南:大数据的内幕

2018-03-29 14:58 579 查看
这是在真正开始学习大数据之前对大数据的一个概览。为的是让我们成为大数据的主人。大数据运行机制这是对大数据运行机制的概览,如果你阅读过上一篇(OODA),就会感觉非常熟悉。不错,他们在概念上是如出一撤的!不过实际操作却又有巨大的不同。在这里还是要推荐下我自己建的大数据学习交流群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。收集数据
大数据的第一站就是收集和存储海量数据(公开/隐私)。现在每个人都是一个巨大的数据源,通过智能手机和个人笔记本释放出大量的个人行为信息。获取数据似乎已经变得越来越容易,数据收集这一模块最大的挑战在于获取海量数据的高速要求以及数据的全面性考虑。清洗数据: 
传统商业智能在数据清洗处理的做法(ETL)是,把准确的数据放入定义好的格式中,通过基础的抽取统计生成高维度的数据,方便直接使用。然而大数据有个最突出的特征——数据非结构化或者半结构化。因为数据有可能是图片,二进制等等。数据清洗的最大挑战来了——如何转化处理大量非结构数据,便于分布式地计算分析。硬件: 
这是大家都很熟悉的概念,和大数据相关的是虚拟化。主要包括存储虚拟化,计算虚拟化。因此又说虚拟化存储和云计算是大数据的“左膀右臂”!!大数据还需要支持多种类型的数据库,因此一个支持扩展的数据仓库是大数据中的基础。多平台与多架构并行使用: 
大数据处理需要多平台和多架构。这是由大数据的快速响应以及多维度分析所决定的特征。通常大数据会把一个任务拆分成多个极小的子任务交由不同的服务器来并行处理,最终由任务调度系统负责汇总分析计算结果。这也是美国谷歌公司需要用到上百万服务器的原因。机器学习与人类判断: 
“一拳难敌众手”,面对似乎处理不完的海量数据,需要机器来帮助我们一起处理。机器学习指的是不断从大数据分析中吸收特征数据,成为我们用来分析数据的关键参考指标!当然很多时候机器学习有可能会被误导,因此需要人类来判断机器学习的结果是否符合预期,以及进一步完善机器学习的结果!!分享与反馈:
随着大数据分析结果的产生,决策者需要的旺旺不是一堆僵硬的数据,而是一张直观动态的决策建议视图。并且在决策之后,需要一个执行反馈系统来评估大数据分析结果的准确性。不断地去优化大数据分析的架构和算法!使得大数据架构更加智能!!大数据现已是时代进步的产物,大势所趋,让我们成为真正的高薪技术型人才
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息