大数据在分布式系统中的存储、管理与分析
2013-11-23 00:00
246 查看
大数据在分布式系统中的存储、管理与分析
作者:张晓东,教授 美国俄亥俄州立大学
这个PPT是他广东某高校做大数据培训课程使用的教程,学习大数据分析,或云计算的朋友可以拿来参考下。
【课程摘要】
目前,我们所面对的一个严重挑战,是如何有效地处理规模越来越大、来势越来越猛的“数据海啸”,又称 “大数据”(Big Data)。这样的数据借助互联网的快速传递无所不在:从各种科学研究基地,到重多政府机构,还有各大商业企业公司。举世界上最大社会网 Facebook(脸谱)为例,现在每天有超过70 Terabytes (x1012 Bytes) 经过压缩后的新数据需要存储,管理和分析。这个数据规模还在增加。主流的商业和开源数据库系统,包括并行数据库系统,在规模上、性能上、和费用上无法对付 日益增大的海量数据了。
大数据时代的到来是不可阻挡的。这主要是由于数据存贮在空间和时间上已发生了本质的变化。在空间上,数 据可以在廉价的磁盘上通过网络系统的支持无限的存放。在时间上,先进的存贮和搜索技术使访问数据的延迟大大降低了。大数据为人类社会的各行各业带来了一次 以数据为基础的探索,发现,和创新的机遇。
大数据处理有以下几个特点:
(1)处理的平台一定是大规模和可扩展的分布式系统;
(2)处理数据的软件 构架是MapReduce 为基础的。
(3)需要各种有效的存储技术和调度算法的支持。(4)在高效和优化的条件下,先进的存储硬件,比如,固态闪存器件(SSD),可以起到很好的作用。
【课程大纲】
(一) 导论
(1) 计算机系统中的供求平衡
(2) 一个大数据访问行为的分布模型
(二) MapReduce以及数据处理
(1) 基本结构和Hadoop的开源实现
(2) Hive: 在Hadoop上的数据仓库
(3) YSmart: 优化Hadoop的数据处理
(三)大数据在分布式系统上的存储结构
(1) RCFile: 设计与实现
(2) 存储结构中优化问题
(3) RCFile的应用范围
(四) 内存和磁盘管理中的核心技术: 替换算法
(1) LRU算法优点以及难以解决的问题
(2) LIRS算法是如何解决LRU问题的
(3) Clock-pro: LIRS是如何实现在操作系统内核的
(4) BP-wrapper:消除替换算法在系统实现中的同步竟争
(五)提高操作系统对磁盘的管理功能和效率
(1) 操作系统对磁盘管理的局限性
(2) 扩大操作系统的视野去获得关键的磁盘数据存储地址信息
(3) DULO-Caching和DULO-Prefetchin:感知磁盘数据分布的缓存 (Caching)和预取(Prefetching)方法以及系统实现
(六) 固态闪存系统(Solid State Device Flash Memory)
(1) SSD Flash Memory的结构和性能
(2) SSD的并行性和它在整个存储系统中的作用
(3) Hystor: 一个通用的混合型SSD的存储系统
(4) hStorage-DB: 一个为数据库服务的混合型SSD的存储系统
(七)计算机学者发表论文之目的与追求
下载地址:大数据在分布式系统中的存储、管理与分析(PPT)
相关文章推荐
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 基于用户行为的数据分析与挖掘+分布式日志管理系统
- 学生信息管理系统V0.2(使用文件存储数据)【MVC模式、DAO模式、Factory模式】
- Python基础(7)——名片管理系统(实现了数据简单的存储、修改、删除、查看等)
- Bigtable探秘 Google分布式数据存储系统
- 分布式大数据系统巧实现,全局数据调度管理不再难 大数据史记 2017-05-18 13:04:22 浏览63 评论0
- 分布式数据分析挖掘系统
- HP EVA存储VxFS文件系统破坏数据恢复分析
- 基于ArcGIS10.0和Oracle10g的空间数据管理平台(C#开发)-系统需求分析
- 负载均衡 性能优化,网络安全,https,分布式系统,日志分析,离线数据分析视频教程
- java版学生成绩管理系统(增删改查+数据用xml文档存储)
- Facebook开源LogDevice:一种用于日志的分布式数据存储系统
- Memblaze发布企业级数据存储管理系统FlashRAID——从NVMe SSD出发,全面进击软件定义存储
- java项目实战-超市管理系统(七)如何导入数据到数据库?Dao包源码与分析
- Bigtable探秘 Google分布式数据存储系统
- 【分享】通用强大的主数据管理系统(最终分享版本)架构分析及源码下载
- MDA 数据采集及分析管理系统智能化工厂4.0
- Android Camera 系统架构源码分析(4)---->Camera的数据来源及Camera的管理
- 存储分析:常见重复数据删除系统问题