shell脚本处理大数据系列之(一)方法小结
2016-08-17 10:58
253 查看
转自:http://longriver.me/?p=57
方法1:
单进程处理大规模的文件速度如(上million量级)比较慢,可以采用awk取模的方法,将文件分而治之,这样可以利用充分的利用多核CPU的优势
方法2:
另外也可以使用split的方法,或者hashkey 的办法把大文件分而治之,
该办法的缺陷是需要对大文件预处理,这个划分大文件的过程是单进程,也比较的耗时
方法3:
该方法是方法2的延伸,在预处理之后,可以使用shell脚本起多个进程来并行执行,当然为了防止进程之间因为并行造成的混乱输出,可以使用锁的办法,也可以通过划分命名的办法。下面的例子比较巧妙使用mv 操作。这一同步操作起到互斥锁的作用,使得增加进程更加灵活,只要机器资源够用,随时增加进程,都不会造成输出上的错误。
方法1:
单进程处理大规模的文件速度如(上million量级)比较慢,可以采用awk取模的方法,将文件分而治之,这样可以利用充分的利用多核CPU的优势
另外也可以使用split的方法,或者hashkey 的办法把大文件分而治之,
该办法的缺陷是需要对大文件预处理,这个划分大文件的过程是单进程,也比较的耗时
该方法是方法2的延伸,在预处理之后,可以使用shell脚本起多个进程来并行执行,当然为了防止进程之间因为并行造成的混乱输出,可以使用锁的办法,也可以通过划分命名的办法。下面的例子比较巧妙使用mv 操作。这一同步操作起到互斥锁的作用,使得增加进程更加灵活,只要机器资源够用,随时增加进程,都不会造成输出上的错误。
相关文章推荐
- shell脚本处理大数据系列之(一)方法小结
- shell脚本处理大数据系列之(二)使用函数返回值
- Shell脚本字符串处理方法小结
- shell脚本的并行处理方法——multi.sh介绍
- shell脚本处理字符串常用方法
- shell脚本中处理 路径中中文和空格方法
- 大数据系列博客之 --- 深入简出 Shell 脚本语言(基础篇)
- Shell脚本学习小结-字符串处理和分支语句
- 【转】shell脚本处理字符串的常用方法
- 大数据系列博客之 --- 深入简出 Shell 脚本语言(提升篇)
- Shell脚本中参数处理方法
- shc对Shell脚本加密方法及问题处理
- window下编写shell脚本出现格式错误的处理方法
- 大数据系列博客之 --- 深入简出 Shell 脚本语言(高级篇)
- shell脚本处理iis日志和网络蜘蛛的应付方法(待续)
- shc对Shell脚本加密方法及问题处理
- 脚本乐园 Shell字符串比较相等、不相等方法小结
- shell脚本处理字符串常用方法
- 【脚本】shell脚本处理字符串常用方法
- shell脚本的并行处理方法——multi.sh介绍