您的位置:首页 > 大数据

大数据在分布式系统中的存储、管理与分析

2013-11-23 00:00 246 查看

大数据在分布式系统中的存储、管理与分析


作者:张晓东,教授 美国俄亥俄州立大学

这个PPT是他广东某高校做大数据培训课程使用的教程,学习大数据分析,或云计算的朋友可以拿来参考下。


【课程摘要】


目前,我们所面对的一个严重挑战,是如何有效地处理规模越来越大、来势越来越猛的“数据海啸”,又称 “大数据”(Big Data)。这样的数据借助互联网的快速传递无所不在:从各种科学研究基地,到重多政府机构,还有各大商业企业公司。举世界上最大社会网 Facebook(脸谱)为例,现在每天有超过70 Terabytes (x1012 Bytes) 经过压缩后的新数据需要存储,管理和分析。这个数据规模还在增加。主流的商业和开源数据库系统,包括并行数据库系统,在规模上、性能上、和费用上无法对付 日益增大的海量数据了。
大数据时代的到来是不可阻挡的。这主要是由于数据存贮在空间和时间上已发生了本质的变化。在空间上,数 据可以在廉价的磁盘上通过网络系统的支持无限的存放。在时间上,先进的存贮和搜索技术使访问数据的延迟大大降低了。大数据为人类社会的各行各业带来了一次 以数据为基础的探索,发现,和创新的机遇。
大数据处理有以下几个特点:
(1)处理的平台一定是大规模和可扩展的分布式系统;
(2)处理数据的软件 构架是MapReduce 为基础的。
(3)需要各种有效的存储技术和调度算法的支持。(4)在高效和优化的条件下,先进的存储硬件,比如,固态闪存器件(SSD),可以起到很好的作用。


【课程大纲】




(一) 导论


(1) 计算机系统中的供求平衡
(2) 一个大数据访问行为的分布模型


(二) MapReduce以及数据处理


(1) 基本结构和Hadoop的开源实现
(2) Hive: 在Hadoop上的数据仓库
(3) YSmart: 优化Hadoop的数据处理


(三)大数据在分布式系统上的存储结构


(1) RCFile: 设计与实现
(2) 存储结构中优化问题
(3) RCFile的应用范围


(四) 内存和磁盘管理中的核心技术: 替换算法


(1) LRU算法优点以及难以解决的问题
(2) LIRS算法是如何解决LRU问题的
(3) Clock-pro: LIRS是如何实现在操作系统内核的
(4) BP-wrapper:消除替换算法在系统实现中的同步竟争


(五)提高操作系统对磁盘的管理功能和效率


(1) 操作系统对磁盘管理的局限性
(2) 扩大操作系统的视野去获得关键的磁盘数据存储地址信息
(3) DULO-Caching和DULO-Prefetchin:感知磁盘数据分布的缓存 (Caching)和预取(Prefetching)方法以及系统实现


(六) 固态闪存系统(Solid State Device Flash Memory)


(1) SSD Flash Memory的结构和性能
(2) SSD的并行性和它在整个存储系统中的作用
(3) Hystor: 一个通用的混合型SSD的存储系统
(4) hStorage-DB: 一个为数据库服务的混合型SSD的存储系统


(七)计算机学者发表论文之目的与追求


下载地址:大数据在分布式系统中的存储、管理与分析(PPT)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐