Spark SQL中防止数据倾斜sqlContext.sql中添加distribute by rand()
2017-02-04 11:40
3159 查看
一、在 Spark SQL中有时会因为数据倾斜影响节点间数据处理速度,可在SQL中添加distribute by rand()来防止数据倾斜
二、在数据量过大时,若在Spark SQL中 使用sort排序等自定义函数会出现内存不足错误
如Total size of serialized results of 20 tasks (1058.2 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)
解决办法可在hive中单独建立一张表将数据排序,避免该步骤在spark内存中执行
val dataRDD = sqlContext.sql( "select A ,B from table your_table distribute by rand() " )
二、在数据量过大时,若在Spark SQL中 使用sort排序等自定义函数会出现内存不足错误
如Total size of serialized results of 20 tasks (1058.2 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)
解决办法可在hive中单独建立一张表将数据排序,避免该步骤在spark内存中执行
相关文章推荐
- MySql的sql语句中添加存储过程或者存储函数来实现Oracle中的start with ……connect by prior……递归(树形结构数据)查询
- spark1.x-spark-sql-数据倾斜解决方案
- 向SQL添加超常数据
- 如何向SQL中添加数据
- linq To SQl之关联表同步添加数据
- 生成测试数据-2-T-SQl系列 RAND( ) 的一般用法
- DbHelperSQL.cs数据访问抽象基础类Copyright (C) 2004-2008 By LiTianPing
- 处理分页的数据函数GetlistByPage(strSQL, PageSize, PageNo, PageCount, arrList)
- Hibernate批处理添加数据SQL
- SQL Server BI Step by Step SSIS 4 ---合并数据1
- SQL Server BI Step by Step 2--- 使用SSIS进行简单的数据导入导出
- Linq 与sql方式 添加数据效率比较
- MYSQL 集群数据节点和SQL节点的添加
- 利用ADODC向SQL表中添加数据
- 添加自动job来分析数据表提高SQL执行效率
- SQL Server BI Step by Step SSIS 4 ---合并数据2
- 关于sql的小玩意 sql server添加数据
- Linq to SQL中添加关系数据
- SQL Server BI Step by Step 2--- 使用SSIS进行简单的数据导入导出
- SQL Server BI Step by Step SSIS 4 ---合并数据3