基于hadoop的Cloudbase的问题/Bug
2010-11-28 17:05
204 查看
1./t 是关键字来的
2.insert 不存在的表 select * from other表;
先会跑hadoop任务,在insert,发现错误
3.容错处理差
4.不能使用‘/005’,需要使用,必须修改源码
if( sep.equals( "//t"))
sep = "/t";
else
sep = sep.replaceAll("^////", "");
5.更新慢:
File/Folder Name Platform Size Date ↓ Downloads Notes/Subscribe
Newest Files
cloudbase-1.3.1.tar.gz 1.7 MB 2009-06-16 823 Release Notes
All Files Subscribe
cloudbase 8.2 MB 2009-06-16 3,070 Subscribe Folder view
1.3.1 1.7 MB 2009-06-16 823 Subscribe Folder view
1.3 1.6 MB 2009-04-14 212 Subscribe Folder view
1.2.1 1.1 MB 2009-03-02 226 Subscribe Folder view
1.2 1.1 MB 2009-02-26 80 Subscribe Folder view
1.1 828.4 KB 2008-12-22 514 Subscribe Folder view
1.0.1 739.9 KB 2008-10-24 434 Subscribe Folder view
1.0 1.0 MB 2008-10-16 781 Subscribe Folder view
6.dblink 只有一个功能,将文件插入到数据库中
7.
select c1, sum(c2), min(c2), max( c2) from test_table4 group by c1 order by 1,2,3,4
这一句group by不行,使用group by 的时候,一定要有聚集函数
select c1 from test_table4 group by c1;
8.DBLink 密码都是明文的。
9.元数据是单点的,比较恶心
10.拆分成太多个任务:
举例:select t1.c1 from test_table4 t1 inner join test_table5 t2 on t1.c1 = t2.c1 order by 1;
a.将小表排序,根据关联键分发
b.对大表根据关联键分发之后,跟小表的关联键结合,生成全数据
c.select 出需要的东西
d.order by 排序
11.join写得有问题:
小表的reduce任务个数只能为1,多了就会有问题。
2.insert 不存在的表 select * from other表;
先会跑hadoop任务,在insert,发现错误
3.容错处理差
4.不能使用‘/005’,需要使用,必须修改源码
if( sep.equals( "//t"))
sep = "/t";
else
sep = sep.replaceAll("^////", "");
5.更新慢:
File/Folder Name Platform Size Date ↓ Downloads Notes/Subscribe
Newest Files
cloudbase-1.3.1.tar.gz 1.7 MB 2009-06-16 823 Release Notes
All Files Subscribe
cloudbase 8.2 MB 2009-06-16 3,070 Subscribe Folder view
1.3.1 1.7 MB 2009-06-16 823 Subscribe Folder view
1.3 1.6 MB 2009-04-14 212 Subscribe Folder view
1.2.1 1.1 MB 2009-03-02 226 Subscribe Folder view
1.2 1.1 MB 2009-02-26 80 Subscribe Folder view
1.1 828.4 KB 2008-12-22 514 Subscribe Folder view
1.0.1 739.9 KB 2008-10-24 434 Subscribe Folder view
1.0 1.0 MB 2008-10-16 781 Subscribe Folder view
6.dblink 只有一个功能,将文件插入到数据库中
7.
select c1, sum(c2), min(c2), max( c2) from test_table4 group by c1 order by 1,2,3,4
这一句group by不行,使用group by 的时候,一定要有聚集函数
select c1 from test_table4 group by c1;
8.DBLink 密码都是明文的。
9.元数据是单点的,比较恶心
10.拆分成太多个任务:
举例:select t1.c1 from test_table4 t1 inner join test_table5 t2 on t1.c1 = t2.c1 order by 1;
a.将小表排序,根据关联键分发
b.对大表根据关联键分发之后,跟小表的关联键结合,生成全数据
c.select 出需要的东西
d.order by 排序
11.join写得有问题:
小表的reduce任务个数只能为1,多了就会有问题。
相关文章推荐
- 【hadoop2.2(yarn)】基于yarn成功执行分布式map-reduce,记录问题解决过程。
- 在windows基于Eclipse编写hadoop时,遇到的 WARN util.NativeCodeLoader问题
- 基于hadoop的排序实现以及在hadoop中使用反射会碰到的问题
- 基于Silverlight打印的使用详解,是否为微软的Bug问题
- 基于单片机的LED流水灯(着力解决加速减速bug问题)
- 在windows基于Eclipse编写hadoop时,遇到的 WARN util.NativeCodeLoader问题
- 求解:基于docker搭建跨主机hadoop集群遇到的问题
- 基于hadoop2.6安装hive与pig的问题
- 基于hadoop 2.0 的hbase "Unable to load native-hadoop library for your platform" 问题解决
- 基于docker搭建hadoop集群环境中遇到的一些问题
- phpcms审核代码处理存在bug导致审核过无变化/模板基于审核状态将误判问题
- Hadoop0.21内存泄漏问题:数据块映射管理的一个bug
- tuzicms二级导航栏目地址URL问题bug修复包
- onresize在ie和火狐浏览器上bug问题解决
- Top K问题——基于堆排序
- hadoop节点字符编码导致的reduce重复记录问题排查
- 基于Centos搭建 Hadoop 伪分布式环境
- hadoop-0.20.1-examples.jar wordcount 例子运行出现的问题记录
- VMware虚拟机中Hadoop服务的端口无法访问的问题
- 基于apache服务器的网站本地可以访问,局域网内不能访问的问题解决方法