您的位置:首页 > 大数据 > 云计算

云计算技术基础课后习题

2020-07-15 04:50 204 查看

第一章

  1. 大数据现象是怎么形成的?

    数据产生方式的改变
  2. 人类的活动越来越依赖数据
      人类的日常生活已经与数据密不可分
    • 科学研究进入了“数据科学”时代
    • 各行各业也越来越依赖大数据手段来开展工作
  • 新摩尔定律的含义是什么?
    在技术产品的采用生命周期中,技术在从早期采用者到早期大众接纳过程有一个鸿沟,大部分技术产品无法跨越这个鸿沟就死掉了

  • 云计算有哪些特点?

      超大规模
    • 虚拟化
    • 高可靠性
    • 通用性
    • 高可收缩性
    • 按需服务
    • 极其廉价
  • 云计算按照服务类型可以分为哪几类?

      SaaS(Software as a service)
    • PaaS(Platform as a Service)
    • LaaS(infrastructure as a Service)
  • 云计算技术体系结构可以分为哪几层?

      SOA构件层
    • 管理中间层
    • 资源池层
    • 物理资源层
  • 在性价比上云计算相比传统技术为什么有压倒性的优势?

      成本更低(硬件,电价,管理费用)
    • 资源利用率高(是传统方式的5~7倍)

    第二章

    1. Google云计算技术包括哪些内容?
        Google文件系统GFS
      • MapReduce
      • Chubby
      • Bigtable
      • Megastore
      • Dapper
      • Dremel
      • PowerDrill
      • Google应用程序引擎
    2. 当前主流分布式文件系统有哪些?各有什么优缺点?
        GPFS、PVFS、Lustre、PanFS、GFS等
      • PVFS不足: 单一管理节点:只有一个管理节点来管理元数据,当集群系统达到一定的规模之后,管理节点将可能出现过度繁忙的情况,这时管理节点将成为系统瓶颈
      • 对数据的存储缺乏容错机制:当某一I/O节点无法工作时,数据将出现不可用的情况
      • 静态配置:对PVFS的配置只能在启动前进行,一旦系统运行则不可再更改原先的配置
    3. Lustre文件系统是一个基于对象存储的分布式文件系统,它只有两个元数据管理节点,同PVFS类似,当系统达到一定的规模之后,管理节点会成为Lustre系统中的瓶颈
    4. GPFS的优点:
        使用分布式锁管理和大数据块策略支持更大规模的集群系统,文件系统的令牌管理器为块、inode、属性和目录项建立细粒度的锁,第一个获得锁的客户将负责维护相应共享对象的一致性管理,这减少了元数据服务器的负担
      • 拥有多个元数据服务器,元数据也是分布式,使得元数据的管理不再是系统瓶颈
      • 令牌管理以字节作为锁的最小单位,也就是说除非两个请求访问的是同一文件的同一字节数据,对于数据的访问请求永远不会冲突
    5. GFS采用了哪些容错措施来确保整个系统的可靠性?
        Master容错
      • Chunk Server容错
    6. MapReduce与传统的分布式程序设计相比有何优点?
      与传统的分布式程序设计相比,MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供了一个简单而强大的接口
      (MapReduce把对数据集的大规模操作,分发给一个主节点管理下的各分节点共同完成,通过这种方式实现任务的可靠执行与容错机制)
    7. Chubby的设计目标是什么?Paxos算法在Chubby中起 什么作用?
        Chubby是Google设计的提供粗粒度锁服务的一个文件系统,它基于松耦合分布式系统,解决了分布的一致性问题。
      • 实现约束条件 每个acceptor只接受它得到的第一个决议
      • 一旦某个决议得到通过,之后通过的决议必须和该决议保持一致
    8. 阐述Bigtable的数据模型和系统架构。
        Bigtable是一个分布式多维映射表,表中的数据通过一个行关键字(Row Key)、一个列关键字(Column Key)以及一个时间戳(Time Stamp)进行索引。Bigtable的存储逻辑可以表示为:(row:string, column:string, time:int64)→string
    9. 分布式存储系统Megastore的核心技术是什么?
        复制(每个副本都存有记录所有更新的数据。Megastore允许副本不按顺序接受日志,这些日志将独立的存储在Bigtable中)
    10. 大规模分布式系统的监控基础架构Dapper关键技术是什么?
        轻量级核心功能库
      • 二次抽样技术
    11. 相比于行存储,列存储有哪些优点?
        处理时只需要使用涉及的列数据
      • 列存储更利于数据的压缩
    12. 为什么MapReduce不适合实时数据处理?
        MR从面向记录转换到列状存储后性能是分钟级,无法满足实时要求
    13. 简单阐述Dremel如何实现数据的无损表示。
        重复深度主要关注的是可重复类型,而定义深度同时关注可重复类型和可选类型
      • 每一列最终会被存储为块(Block)的集合,每个块包含重复深度和定义深度且包含字段值
    14. PowerDrill能实现高效的数据处理,在存储部分主要依赖哪两方面的技术?
        数据编码的优化
      • 全局字典优化
    15. Google App Engine提供了哪些服务?
        数据操作API(Image类 exception类)
      • 邮件API(允许的附件类型 EmailMessage类)
      • Memcache API(构造函数 使用方法)
      • 用户API(User对象 登录网址 User类)
      • 数据库API(Model类 Property类 Query类 GqlQuery类 Key类)
    16. Google App Engine的沙盒对开发人员有哪些限制?
        用户的应用程序只能通过Google App Engine提供的网址抓取API和电子邮件服务API来访问互联网中其他的计算机,其他计算机如请求与该应用程序相连接,只能在标准接口上通过HTTP或HTTPS进行
      • 应用程序无法对Google App Engine的文件系统进行写入操作,只能读取应用程序代码上的文件,并且该应用程序必须使用Google App Engine的Data Store数据库来存储应用程序运行期间持续存在的数据
      • 应用程序只有在响应网络请求时才运行,并且这个响应时间必须极短,在几秒之内必须完成。与此同时,请求处理的程序不能在自己的响应发送后产生子进程或执行代码
  • 内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
    标签: