自定义分区partitioner实现数据分区存储
2017-09-09 22:04
417 查看
Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数
注意:
(1)只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区的值是None
(2)每个RDD的分区ID范围:0~numPartitions-1,决定这个值是属于那个分区的。
参考:http://blog.csdn.net/high2011/article/details/68491115
package com.ljt.spark01.weblog
import java.net.URL
import org.apache.spark.HashPartitioner
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
/**
* 自定义分区partitioner实现数据分区存储
*/
object UrlCountPartition {
def main(args: Array[String]): Unit = {
val arr_course = Array(“java.itcast.cn”, “php.itcast.cn”, “net.itcast.cn”)
val conf = new SparkConf().setAppName(“AdvUrlCount”)
.setMaster(“local[2]”)
val sc = new SparkContext(conf)
}
}
注意:
(1)只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区的值是None
(2)每个RDD的分区ID范围:0~numPartitions-1,决定这个值是属于那个分区的。
参考:http://blog.csdn.net/high2011/article/details/68491115
package com.ljt.spark01.weblog
import java.net.URL
import org.apache.spark.HashPartitioner
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
/**
* 自定义分区partitioner实现数据分区存储
*/
object UrlCountPartition {
def main(args: Array[String]): Unit = {
val arr_course = Array(“java.itcast.cn”, “php.itcast.cn”, “net.itcast.cn”)
val conf = new SparkConf().setAppName(“AdvUrlCount”)
.setMaster(“local[2]”)
val sc = new SparkContext(conf)
//将数据切分为元组(URL,1)存放在RDDl val RDD1 = sc.textFile("data/usercount/IT_education.log").map { x => val f = x.split("\t") //去掉时间,每出现一次URL,记为一个元组(url,1) (f(1), 1) } //对相同的key的每个元组的值进行自加 //(http://php.itcast.cn/php/course.shtml,459) val rdd_urlCount = RDD1.reduceByKey(_ + _) //获取url的前缀Host做为课程标识 //(php.itcast.cn,http://php.itcast.cn/php/course.shtml,459) val rdd_urlHost = rdd_urlCount.map(f => { val url = f._1 val countUrl = f._2 val host = new URL(url).getHost //为了方便按照分区内部排序需要使用K-V,元组 (host, (url, countUrl)) }).cache() //cache会将数据缓存到内存当中,cache是一个Transformation,lazy //url去重,得到所有host课程种类 val ints = rdd_urlHost.map(_._1).distinct().collect() //实例化分区 val hostPartitioner = new HostPartition(ints) //每个分区内部排序,取出前3名 val rdd_Partitioners = rdd_urlHost.partitionBy(hostPartitioner) .mapPartitions(it => { it.toList.sortBy(_._2._2).reverse.take(3).iterator }) rdd_Partitioners.saveAsTextFile("data/out/out_partitioner") /** * ArrayBuffer((net.itcast.cn,(http://net.itcast.cn/net/course.shtml,521)), (net.itcast.cn,(http://net.itcast.cn/net/video.shtml,521)), (net.itcast.cn,(http://net.itcast.cn/net/teacher.shtml,512)), (java.itcast.cn,(http://java.itcast.cn/java/course/cloud.shtml,1028)), (java.itcast.cn,(http://java.itcast.cn/java/course/javaee.shtml,1000)), (java.itcast.cn,(http://java.itcast.cn/java/course/base.shtml,543)), (php.itcast.cn,(http://php.itcast.cn/php/video.shtml,490)), (php.itcast.cn,(http://php.itcast.cn/php/teacher.shtml,464)), (php.itcast.cn,(http://php.itcast.cn/php/course.shtml,459))) */ println(rdd_Partitioners.collect().toBuffer) sc.stop()
}
}
package com.ljt.spark01.weblog import org.apache.spark.Partitioner import scala.collection.mutable.HashMap /** * 重写partition分区,按规则存储分区数据 */ class HostPartition(ins: Array[String]) extends Partitioner { val parMap = new HashMap[String, Int]() var count = 0 for (i <- ins) { parMap += (i -> count) count += 1 } override def numPartitions: Int = { ins.length } def getPartition(key: Any): Int = { parMap.getOrElse(key.toString(), 0) } }
相关文章推荐
- php innodb存储引擎实现分区存储数据
- Java 内存数据存储缓冲区虚拟实现
- 消除javaScript Cookies的安全隐患,实现用户相关数据本地存储
- 利用存储过程实现交叉表格式数据查询的一种通用方法
- AntDB支持自定义分区函数,实现数据路由到特定节点
- 有关数据仓库的数据存储和实现
- 数据结构复习——线性表的顺序存储实现
- 使用堆栈(Stack)来模拟队列(FIFO)功能,要求数据必须存储在堆栈内部.需要实现enqueue(入栈),dequeue(出栈),isEmpty(判空)三个功能,并给出单元测试.
- memcached实现分布式数据存储
- 漫漫运维路——使用NFS构建出共享存储的LAMP平台,实现Wordpress论坛的数据同步 推荐
- Ms sqlserver2008 R2大数据表的分区实现
- Android SharedPreferences实现数据存储功能
- android实现数据的MD5加密并用SharedPreferences存储
- Android 数据存储 利用SQLiteDatabase实现简单的学生管理
- 实现千万级数据分页的存储过程
- 我的WCF4 Rest Service及Entity Framework with POCO之旅(三)——用Entity Framework和POCO Template实现数据模型及存储
- 实现千万级数据分页的存储过程
- (转)PostGIS+QGIS+GeoServer+OpenLayers实现数据的存储、服务的发布以及地图的显示
- 存储过程配合UpdateDaset方法批量插入Dataset数据实现代码
- [python] pickle 库 -- 实现数据简单存储