大数据学习,大数据发展趋势和Spark介绍
大数据学习,大数据发展趋势和Spark介绍
大数据是随着计算机技术、通信技术、互联网技术的发展而产生的一种现象。
以前我们没有实现人和人之间的连接,产生的数据没有现在这么多;或者说没有把产生的数据记录下来;即使记录下来,我们也没有很好的工具对这些数据进行处理、分析和挖掘。而随着大数据技术的发展,我们开始逐渐地拥有这种能力,来发掘数据中的价值。
大数据技术在2012年之前是以MapReduce为代表的批处理技术;2013年之后,则是以Spark为代表的大数据处理引擎;展望未来,大家越来越关注人工智能和大数据的结合,希望通过人工智能技术从大数据中挖掘更多的价值。近年来人工智能的爆发,也正是得益于大数据技术在存储、算力和算法上的飞速发展,所以人工智能和大数据是密不可分的,离开大数据,人工智能也是无源之水,无木之本。我们可以打个比方,如果把人工智能比喻成火箭,那么大数据技术就是推动这艘火箭的燃料。
以上我们从宏观的角度来看大数据技术的发展趋势,下面让我们以一个技术人员的角度,来看看当前大多数企业中所使用的大数据平台的系统架构。
首先企业会从各个渠道收集数据,这些数据通过消息订阅系统,一部分会经过一些流失的计算和处理,支持在线和实时的分析;另一部分数据则进入到相对静态的数据湖中,中间会涉及到数据的清洗、过滤、再加工等操作,另外还可以对数据进行结构调整来优化业务,如合并大量小文件等等。数据湖中这些数据可以用来支持商业分析报表、数据挖掘、人工智能等应用。事实上Spark是当前使用最普遍的大数据计算引擎。在各个大企业的业务系统中,都把Spark作为数据处理和分析的核心组件。简单来说,原始的数据通常需要利用Spark来进行一系列的处理,才能最终应用于人工智能等应用,可以说Spark已经成为大数据处理领域的一个实施标准。所以在当前大数据+AI的时代,正是因为有了像Spark这样的大数据技术,才使得企业能够更快、更好地搭建业务系统,服务于所需的应用,从而充分的结合大数据和AI的能力,进一步发掘数据中的价值。
接下来让我们一起了解一下Spark。作为大数据技术中的明星,Spark它是一种通用的高性能的集群计算系统。它起源于UC Berkeley AMP Lab一个研究项目,于2010年开源,2013年加入Apache基金会,如今Spark个在全球已经拥有50万的Meetup成员,Spark的开源社区有1300+开发者,Spark也被广泛的使用于企业和高校中。
那么究竟是什么让Spark能得到大家的青睐呢?第一点原因就是它的高性能,比传统MapReduce要快一百倍以上,让Spark这个项目在一开始就非常的引人注目。其次,是它的通用性,Spark让你可以在一个Pipline里面编写SQL、Streaming、ML、Graph等多种应用,而在Spark号之前是没有一个系统能够做到这一点的。第三点,Spark支持Java、Scala、Python、R、SQL等多种API,而且设计得非常简洁易用。不光如此,Spark还在其周围构建丰富的生态,他能够处理多种数据源,如HBase、Kafka、MySQL等等,以及多种数据格式,如Parquet、ORC、CSV、JSON等等。此外还支持多种模式的部署,Yarn、Mesos、Kubernetes(也简称为K8S),另外Spark也提供独立的Standalone部署模式。
通过上面的内容我们大概了解了大数据发展趋势和Spark的特点,是否意犹未尽呢,想要了解更多大数据、Spark的信息,请登录华为云学院(https://edu.huaweicloud.com/)
学习相关课程《华为云数据湖探索服务》、《大数据入门与应用》。。。还有更多精彩课程等你来学习!
- “大数据分析挖掘-基于Hadoop/Mahout/Mllib的大数据挖掘(含Spark、Storm和Docker应用介绍)”培训
- 学习大数据开发需要读的书籍有哪些?大数据开发书籍推荐介绍
- 大数据学习要知道的十大发展趋势,以及学习大数据的几点建议
- 科多大数据:大数据学习要知道的十大发展趋势,以及学习大数据的几点建议
- 大数据学习笔记之三十 Spark介绍之一
- 0基础到大数据架构师(Hadoop+Spark)学习路线图
- 大数据学习——Flume介绍与安装
- API。Spark SQL 1.3.0 DataFrame介绍、使用及提供了些完整的数据写入
- spark学习-28-Spark数据倾斜问题
- Spark中组件Mllib的学习14之从文本中读取带标签的数据,生成带label的向量
- Spark学习之路 (九)SparkCore的调优之数据倾斜调优
- 从谷歌流感趋势(GFT)出错看大数据发展之路
- 2014年大数据和数据分析发展趋势预测
- Unity3D学习第一日之(游戏的发展趋势、以及Unity3D界面与编辑器布局和地形的创建等..
- spark学习-57-Spark下Scala版HBase下的根据权重获取最真实数据
- Spark学习之数据读取与保存(4)
- 新型硬件发展趋势及其对数据管理与分析的挑战(上)
- 世界顶尖数据科学家看未来十年大数据发展
- 学习笔记☞ python 基础(python3)【一】(python相关介绍,核心数据类型(数字),赋值语句,算数运算符优先级)