spark快速大数据分析之数据读取与保存
2016-05-24 20:15
453 查看
1 动机
探索spark对不同地方或不同的数据的读取和保存方法,通过本节学习可以掌握将数据读取到spark,并将计算结果以你希望的方式存储起来。
spark生态常见三种数据源: 文件格式与文件系统,spark SQL中的结构化数据源, 数据库与键值存储
2文件格式
a.0....逗号分隔值CSV与制表符分隔值
a.文本文件 ------非结构化
b.JSON -----半结构化,下面几个是结构化
c.SequenceFile------是由没有相对关系结构的键值对文件组成的常用的Hadoop格式。
d.对象文件----------它允许存储只包含值得RDD,是使用java序列化写出的
e. hadoop输入输出格式
f.文件压缩----------gzip,lzo,bzip2,zlib,Snappy
3 文件系统
a.本地文件系统
b.Amazon S3
c.HDFS
4spark SQL中结构化数据
a.Apache Hive
b.JSON
5 数据库
a.java数据库连接
b.Cassandra
c.HBase
d.Elasticsearch
探索spark对不同地方或不同的数据的读取和保存方法,通过本节学习可以掌握将数据读取到spark,并将计算结果以你希望的方式存储起来。
spark生态常见三种数据源: 文件格式与文件系统,spark SQL中的结构化数据源, 数据库与键值存储
2文件格式
a.0....逗号分隔值CSV与制表符分隔值
a.文本文件 ------非结构化
b.JSON -----半结构化,下面几个是结构化
c.SequenceFile------是由没有相对关系结构的键值对文件组成的常用的Hadoop格式。
d.对象文件----------它允许存储只包含值得RDD,是使用java序列化写出的
e. hadoop输入输出格式
f.文件压缩----------gzip,lzo,bzip2,zlib,Snappy
3 文件系统
a.本地文件系统
b.Amazon S3
c.HDFS
4spark SQL中结构化数据
a.Apache Hive
b.JSON
5 数据库
a.java数据库连接
b.Cassandra
c.HBase
d.Elasticsearch
相关文章推荐
- READING NOTE: Chained Predictions Using Convolutional Neural Networks
- 采用Kettle分页处理大数据量抽取任务
- JAVA 大数据基本操作
- FZU2109:Mountain Number(数位DP)
- http://jingyan.baidu.com/article/dca1fa6fa07000f1a44052f6.html
- leetcode---Container With Most Water
- 我国发展人工智能由谁牵头?
- linker command failed with exit code 1 (use -v to see invocation)
- 使用Genymotion出现错误INSTALL_FAILED_CPU_ABI_INCOMPATIBLE解决方法
- 关于gmail注册时此电话号码无法用于进行验证
- 关于Fiddler 出现 Creation of interception certificate failed.提示的解决办法
- Spark中组件Mllib的学习25之线性回归2-较大数据集(多元)
- 直接插入排序(Straight Insertion Sort)
- 直接选择排序(Straight Selection Sort)
- Hadoop HA重做 Standby
- Contains Duplicate II
- HDOJ/HDU 1039 Easier Done Than Said?(字符串处理~)
- HDOJ/HDU 1039 Easier Done Than Said?(字符串处理~)
- Windows下wamp sever+sendmail使用mail()函数时的配置
- Open Baidu webpage and type in Chinese characters to start searching, press “Back” button to go to B