Spark 2.0介绍:Dataset介绍和使用
2016-07-17 15:34
363 查看
1 Dataset介绍
2 Dataset Wordcount实例
2.1 第一步、创建SparkSession
2.2 第二步、读取数据并将它转换成Dataset
2.3 第三步、分割单词并且对单词进行分组
2.4 第四步、计数
2.5 第五步、打印结果
3 完整的代码
Dataset介绍
Dataset是从Spark 1.6开始引入的一个新的抽象,当时还是处于alpha版本;然而在Spark 2.0,它已经变成了稳定版了。下面是DataSet的官方定义:A Dataset is a strongly typed collection of domain-specific objects that can be transformed
in parallel using functional or relational operations. Each Dataset also has an untyped view
called a DataFrame, which is a Dataset of Row.
Dataset是特定域对象中的强类型集合,它可以使用函数或者相关操作并行地进行转换等操作。每个Dataset都有一个称为DataFrame的非类型化的视图,这个视图是行的数据集。上面的定义看起来和RDD的定义类似,RDD的定义如下:
RDD represents an immutable,partitioned collection of elements that can be operated on in parallel
RDD也是可以并行化的操作,DataSet和RDD主要的区别是:DataSet是特定域的对象集合;然而RDD是任何对象的集合。DataSet的API总是强类型的;而且可以利用这些模式进行优化,然而RDD却不行。
Dataset的定义中还提到了DataFrame,DataFrame是特殊的Dataset,它在编译时不会对模式进行检测。在未来版本的Spark,Dataset将会替代RDD成为我们开发编程使用的API(注意,RDD并不是会被取消,而是会作为底层的API提供给用户使用)。
上面简单地介绍了Dataset相关的定义,下面让我们来看看如何以编程的角度来使用它。
Dataset Wordcount实例
为了简单起见,我将介绍如何使用DataSet编写WordCount计算程序。
第一步、创建SparkSession
正如我们在《Spark 2.0介绍:SparkSession创建和使用相关API》中提到的,我们在这里将使用SparkSession作为程序的切入点,并使用它来创建出Dataset:
第二步、读取数据并将它转换成Dataset
我们可以使用read.textAPI来读取数据,正如RDD版提供的
textFile,
as[String]可以为dataset提供相关的模式,如下:
DataSet[String],我们需要引入
sparkSession.implicits._。
第三步、分割单词并且对单词进行分组
Dataset提供的API和RDD提供的非常类似,所以我们也可以在DataSet对象上使用map, groupByKey相关的API,如下:
第四步、计数
一旦我们有了分组好的数据,我们可以使用count方法对每个单词进行计数,正如在RDD上使用reduceByKey:
第五步、打印结果
正如RDD一样,上面的操作都是懒执行的,所以我们需要调用action操作来触发上面的计算。在dataset API中,show函数就是action操作,它会输出前20个结果;如果你需要全部的结果,你可以使用collect操作:
完整的代码
相关文章推荐
- log4net 记录到数据库和本地文件
- 盒子3D模型
- java-并发-线程安全
- Leetcode-sort-list
- 线程安全和可重入函数区别
- Chrome使用技巧(几个月的心得)
- 获取数字的位数
- Python之路: 模块篇
- Android之Activity生命周期的浅析(二)
- IPC----信号量
- Spark 2.0介绍:从RDD API迁移到DataSet API
- iOS 基础动画
- 量化投资策略
- 《编程之法》1.6最长回文子串
- 使用Eclipse这些快捷键,效率提升一倍
- Windows下条件变量实现读写同步
- Android之Activity生命周期浅析(一)
- POJ 3614 Sunscreen 贪心
- PS初始化配置
- percona-toolkit工具包的安装和使用