您的位置：首页 > 数据库

Spark SQL中防止数据倾斜sqlContext.sql中添加distribute by rand()

2017-02-04 11:40 3159 查看

一、在 Spark SQL中有时会因为数据倾斜影响节点间数据处理速度，可在SQL中添加distribute by rand()来防止数据倾斜

val dataRDD = sqlContext.sql(
"select A ,B from table your_table distribute by rand() "
)

二、在数据量过大时，若在Spark SQL中使用sort排序等自定义函数会出现内存不足错误

如Total size of serialized results of 20 tasks (1058.2 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

解决办法可在hive中单独建立一张表将数据排序，避免该步骤在spark内存中执行

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： spark

相关文章推荐

MySql的sql语句中添加存储过程或者存储函数来实现Oracle中的start with ……connect by prior……递归（树形结构数据）查询
spark1.x-spark-sql-数据倾斜解决方案
向SQL添加超常数据
如何向SQL中添加数据
linq To SQl之关联表同步添加数据
生成测试数据－2－T－SQl系列 RAND( ) 的一般用法
处理分页的数据函数GetlistByPage(strSQL, PageSize, PageNo, PageCount, arrList)
Hibernate批处理添加数据SQL
SQL Server BI Step by Step SSIS 4 ---合并数据1
SQL Server BI Step by Step 2--- 使用SSIS进行简单的数据导入导出
Linq 与sql方式添加数据效率比较
MYSQL 集群数据节点和SQL节点的添加
利用ADODC向SQL表中添加数据
添加自动job来分析数据表提高SQL执行效率
SQL Server BI Step by Step SSIS 4 ---合并数据2
关于sql的小玩意 sql server添加数据
Linq to SQL中添加关系数据
SQL Server BI Step by Step 2--- 使用SSIS进行简单的数据导入导出
SQL Server BI Step by Step SSIS 4 ---合并数据3

新的分享

腾讯云数据库TDSQL-大咖论道 | 基础软件的过去、现在、未来
腾讯云数据库TDSQL｜像这样的高考，其实我们每天都在经历
ES既是搜索引擎又是数据库？真的有那么全能吗？ - 更多
解放双手，数据库智能调参CDBTune等你来测
直播问答丨31问工行分布式数据库选型及设计 - 分布式
您的DBS已上线！解决混合云数据库一站式备份若干问题
腾讯云数据库｜一文解读沙利文2021年中国分布式数据库市场报告
做数据时代的加油站，ShardingSphere 为易车数据库架构演进提供新动力
工行“去O”数据库选型与分布式架构设计 - 分布式
数据库治理的云原生之道 —— Database Mesh 2.0
数仓选型必列入考虑的OLAP列式数据库ClickHouse（上）
Flask框架(flask-sqlalchemy操作，Migrate作用，Flask迁移数据库，Flaks同步表数据，)

章节导航