OpenRS—— 开放式遥感数据处理与服务平台 OpenRS-Cloude:基于MapReduce的并行遥感处理系统
2014-01-06 13:05
886 查看
江万寿研究员介绍了开放式遥感数据处理与服务平台项目的来源、进展情况,项目思路以及要达到的目标:可扩展、可伸缩、可配置、可定制。
OpenRS的最终目标是搭建一个基本的遥感图像数据处理与应用的框架,实现最常用的图像读写、显示、漫游,以及其他基本的图像处理分析功能以及摄影测量中的传感器成像模型、地理坐标管理等,在此基础上,做成一个开放的社区,为实验室以及国内外研究人员共同开发应用。参与此开放社区的研究人员可以只关注其感兴趣的特定区域,而不用考虑和实现软件其它功能,大量减少重复劳动,可以大大提高研究速度和质量。
OpenRS-Cloude:基于MapReduce的并行遥感处理系统
OpenRS-Cloud是建立在MapReduce并行模型和OpenRS插件体系基础之上的分布式遥感数据处理开发系统。主要提供一个可以利用廉价PC机群进行高性能遥感数据处理的分布式平台,主要提供任务并行化处理,Web监控,分布式存储,算法插件化和多语言接口等功能。OpenRS-Cloud主要由两部分组成:算法调用与任务管理。算法调度主要是通过OpenRS核心插件系统来调用系统本身提供或者第三方开发者实现的各种算法。由于利用了OpenRS插件系统,所以继承了OpenRS的开放特性;任务管理是一套基于MapReduce并行模型的任务管理、调度和监控系统,系统本身提供web页面方式的各种任务提交与管理型接口。MapReduce模型最早被Google最资深的计算机科学家Jeff Dean用于分布式计算,他在处理Google的日常工作时,认识到Google所需的绝大部分数据处理都可以归结为一个简单的并行算法:MapReduce。这个算法能够在很多种计算中达到相当高的效率,而且是可扩展的。
MapReduce的主要两个概念是"Map(映射)"和"Reduce(化简)"。他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。简单而言,Map函数是用来把一组键值对映射成一组新的键值对,用于子任务执行,而Reduce函数是用来保证所有映射的键值对中的每一个共享相同的键组,用于子任务处理结果的合并。MapReduce会生成大量的临时文件,为了提高效率,一般采用分布式文件系统来管理和访问这些文件。 OpenRS-Cloud通过结合OpenRS插件系统与MapReduce并行计算模型,为各种遥感算法提供一个通用的并行算法开发环境。
在OpenRS-Cloud中,我们将任务称为Job,而子任务成为Task,每个Job在经过任务分解过程后,形成多个Task,每个Task具有分离内容(inputSpilit),系统将各个子系统根据优先级将子任务发送到各个处理服务器进行并行处理,最终结果汇集在一台服务器上,做最终的结果合并工作,将最终的处理数据写入到指定的磁盘上。在上述过程中,Map所产生的中间结果存储在分布式文件系统中,用于最终Reduce操作的数据读取和处理。
备注:跨平台/ 跨操作系统 /分布式并行处理 /面向服务(SOA模式)/开源
相关文章推荐
- OpenRS—— 开放式遥感数据处理与服务平台 OpenRS-Cloude:基于MapReduce的并行遥感处理系统
- 人人网数据服务平台:基于日志分析的数据系统架构-严岩
- 欧空局(BEAM)-遥感栅格数据显示、分析、处理平台
- 日处理20亿数据,实时用户行为服务系统架构实践
- 采集→清洗→处理:基于MapReduce的离线数据分析 - 大数据
- 基于蓝牙的家居网关数据采集处理系统的设计与实现
- 【智能公安】海云数据冯一村:AI能力服务平台如何在公安系统落地
- 日处理20亿数据,实时用户行为服务系统架构实践
- 采集→清洗→处理:基于MapReduce的离线数据分析 - 大数据
- 大数据环境下基于R语言的数据挖掘平台 之 大数据处理与导出模块
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 基于各系统平台(RedHat Linux、SUSE Linux、CentOS、SUN Solaris10) FTP服务的配
- 海云数据冯一村:AI能力服务平台如何在公安系统落地
- 携程日处理20亿数据,实时用户行为服务系统架构实践
- 基于c++基础上的数据编辑处理系统的底层处理
- 遥感卫星数据共享服务平台:数据服务终端
- 日处理20亿数据,实时用户行为服务系统架构实践
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 【大数据系列】基于MapReduce的数据处理 SequenceFile序列化文件
- 基于Hadoop平台的并行数据挖掘算法工具-Dodo