spark关于join后有重复列的问题(org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous)
2017-06-01 10:10
786 查看
h2 { color: #fff; background-color: #7CCD7C; padding: 3px; margin: 10px 0px }
h3 { color: #fff; background-color: #008eb7; padding: 3px; margin: 10px 0px }
问题
datafrme提供了强大的JOIN操作,但是在操作的时候,经常发现会碰到重复列的问题。在你不注意的时候,去用相关列做其他操作的时候,就会出现问题!
假如这两个字段同时存在,那么就会报错,如下:org.apache.spark.sql.AnalysisException: Reference 'key2' is ambiguous
实例
1.创建两个df演示实例
显示:df.show()
显示:df2.show
关联查询:
结果展示:
这时候问题出现了这个地方出现了三个两两相同的字段,当你在次操作这个字段的时候就出问题了。
结果:
2.你可以删除多余的列,在实际情况中你不可能将两张完全一样的表进行关联,一般就几个字段的名字相同,这样你可以删除你不需要的字段
结果:
3.就是通过修改JOIN的表达式,完全可以避免这个问题。主要是通过Seq这个对象来实现
结果:
h3 { color: #fff; background-color: #008eb7; padding: 3px; margin: 10px 0px }
问题
datafrme提供了强大的JOIN操作,但是在操作的时候,经常发现会碰到重复列的问题。在你不注意的时候,去用相关列做其他操作的时候,就会出现问题!假如这两个字段同时存在,那么就会报错,如下:org.apache.spark.sql.AnalysisException: Reference 'key2' is ambiguous
实例
1.创建两个df演示实例val df = sc.parallelize(Array( ("yuwen", "zhangsan", 80), ("yuwen", "lisi", 90), ("shuxue", "zhangsan", 90), ("shuxue", "lisi", 95) )).toDF("course", "name", "score")
显示:df.show()
val df2 = sc.parallelize(Array( ("yuwen", "zhangsan", 90), ("shuxue", "zhangsan", 100) )).toDF("course", "name", "score")
显示:df2.show
关联查询:
val joined = df.join(df2, df("cource") === df2("cource") && df("name") === df2("name"), "left_outer")
结果展示:
这时候问题出现了这个地方出现了三个两两相同的字段,当你在次操作这个字段的时候就出问题了。
解决问题
1.你可以使用的时候指定你要用哪个df里面的字段joined.select(df("course"),df("name")).show
结果:
2.你可以删除多余的列,在实际情况中你不可能将两张完全一样的表进行关联,一般就几个字段的名字相同,这样你可以删除你不需要的字段
joined.drop(df2("name"))
结果:
3.就是通过修改JOIN的表达式,完全可以避免这个问题。主要是通过Seq这个对象来实现
df.join(df2, Seq("course", "name")).show()
结果:
相关文章推荐
- org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;
- org.apache.spark.sql.AnalysisException: Try to map struct<>to Tuple1 异常
- [置顶] Sparksql 一个错误:org.apache.spark.sql.AnalysisException: character ' ' not supported here;
- 关于mybatis “org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)” 错误的问题。
- org.apache.spark.SparkException: Task not serializable问题分析
- spark sql 中 java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.Gener
- 关于UUID导致数据同步异常(org.apache.sqoop.mapreduce.AsyncSqlOutputFormat: Got exception in update thread: com)
- 关于org.apache.jasper.JasperException: Unable to compile class for JSP问题的解决
- 问题:org.apache.tomcat.dbcp.dbcp.SQLNestedException: Cannot load JDBC driver class 'com.mysql.jdbc.Dri
- 关于org.apache.ibatis.binding.BindingException: Invalid bound statement (not found),找不到mapper文件问题解决
- Spark问题[一]:java.lang.ClassNotFoundException: org.apache.spark.launcher.Main
- Shiro关于JSESSIONID失效报错问题,org.apache.shiro.session.UnknownSessionException: There is no session with i
- 关于mybatis “org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)” 错误的问题。
- 关于org.apache.jasper.JasperException: Unable to compile class for JSP问题的解决
- org.apache.commons.dbcp.SQLNestedException: Cannot create PoolableConnectionFacmysql的安装版本和驱动版本不一致的问题
- 关于org.apache.jasper.JasperException: Unable to compile class for JSP问题的解决
- spark on yarn 报 org.apache.hadoop.util.Shell$ExitCodeException: 问题
- 问题解决:SQLException: org.apache.tomcat.dbcp.dbcp.DelegatingStatement with address: "com.mysql.jdbc.Statement@100363" is closed.
- 关于org.apache.jasper.JasperException: Unable to compile class for JSP问题的解决
- Spark ERROR: org.apache.spark.shuffle.FetchFailedException 问题追查