CCA Spark and Hadoop 开发者认证技能点【2016只为hadoop达到巅峰】
2016-01-01 11:09
489 查看
Required Skills
技能要求:
Data Ingest
数据消化:The skills to transfer data between external systems and your cluster. This includes the following:
在外部系统和集群之间转移数据的技能,包括以下几个:
Import data from a MySQL database into HDFS using Sqoop
使用sqoop将数据从mysql导入HDFS
Export data to a MySQL database from HDFS using Sqoop
使用sqoop将数据从HDFS导入mysql
Change the delimiter and file format of data during import using Sqoop
使用sqoop导入的时候改变数据的分隔符和文件格式
Ingest real-time and near-real time (NRT) streaming data into HDFS using Flume
使用Flume处理实时和接近实时的流数据导入到HDFS中
Load data into and out of HDFS using the Hadoop File System (FS) commands
使用HDFS 的hadoop FIle System命令导入导出数据
Transform, Stage, Store
转化,筹划,存储Convert a set of data values in a given format stored in HDFS into new data values and/or a new data format and write them into HDFS. This includes writing Spark applications in both Scala and Python:
将给定的HDFS上的一套数据值转化成为一套新的数据值和数据格式,并且写入到HDFS中。这包括使用Scala和Python编写Spark程序
Load data from HDFS and storing results back to HDFS using Spark
使用Spark从HDFS中加载数据,并且将运算结果写回到HDFS
Join disparate datasets together using Spark
使用Spark合并不同的数据集
Calculate aggregate statistics (e.g., average or sum) using Spark
使用Spark计算汇总统计数据
Filter data into a smaller dataset using Spark
使用Spqrk过滤数据得到更小的数据集
Write a query that produces ranked or sorted data using Spark
使用Spqrk编写查询得到排名或者排序的数据
Data Analysis
数据分析Use DDL (Data Definition Language) in order to create tables in the Hive metastore for use by Hive and Impala.
使用DDL(数据定义语言)在Hive元数据库中创建表便于hive和impala使用
Read and/or create a table in the Hive metastore in a given schema
使用指定的模式在Hive metastore中读取或者创建一个表
Extract an Avro schema from a set of datafiles using avro-tools
使用avro工具从一套数据文件中提取Avro schema
Create a table in the Hive metastore using the Avro file format and an external schema file
使用Avro 文件格式和一个外部schema 文件在hive metastore中创建一个表
Improve query performance by creating partitioned tables in the Hive metastore
在hive metastore中创建分区来提升查询的效率
Evolve an Avro schema by changing JSON files
改变JSON文件升级Avro schema
Charles 2016-1-1 于Phnom Phen
版权说明:
本文由Charles Dong原创,本人支持开源以及免费有益的传播,反对商业化谋利。
CSDN博客:http://blog.csdn.net/mrcharles
个人站:http://blog.xingbod.cn
EMAIL:charles@xingbod.cn
相关文章推荐
- hadoop2.x 常用端口及定义方法
- Hadoop 1.x 与 2.x 中 fsimage 和 edits 合并实现
- Linux系统下对硬盘分区进行扩容的方法总结
- Apache不记录指定类型日志
- Hadoop 历史服务器与日志详解
- CentOS6.x 用Putty使用密钥验证方式远程登录
- 网站开发进阶(二十五)js如何将html表格导出为excel文件
- 网站开发进阶(二十五)js如何将html表格导出为excel文件
- Hadoop分布式集群安装
- Install Proprietary NVIDIA Driver On Kali Linux
- Linux下开放防火墙端口
- 2016超实用HTML5+CSS3移动web开发、手机网站源码(Mobile Web App微商城)、webApp企业微站
- ORA-19602: cannot backup or copy active file in NOARCHIVELOG mode
- PhotoShop简介
- shell 字符串中定位字符位置 获取字符位置
- linux特殊权限SetUID-36
- error: ‘SA_INTERRUPT’ undeclared (first use in this function)
- nginx-1.8.0源码包编译安装
- linux下安装java等
- 光流法 Optical Flow