您的位置:首页 > 其它

分布式系统

2016-07-13 14:18 197 查看

1. 简介

分布式存储特点概括:规模大+成本低。

分布式存储的挑战来源自于其设计的两个技术领域:分布式 + 存储:

1.1 要素

可扩展:灵活水平扩展到成百上千上万,并且整体性能线性增长。

低成本:构建与低成本PC,兼备自动容错,自动负载均衡等机制。

高性能:秒,毫秒,亚秒级别。

易用:构建生态环境,与其它系统集成,如监控,运维,数据导入。

1.2 分布式数据分类

非结构化数据:如文本,图像,图片,视频,音频等

结构化数据:类似关系型数据库

半结构化数据:介于上面二者之间,如HTML文档,换言之其模式结构于内容混合。

1.3 分布式存储系统分类

分布式文件系统 : 存储非结构化文件对象;如FB Haystack; GFS, HDFS

分布式键值系统:存储半结构化数据,如Amazon Dynamo, Memcache

分布式表格:存储半结构化数据,如BigTable,HBase, DynamoDB

分布式数据库:存储结构化数据,如MySQL Sharding, Amazon RDS,以及阿里OceanBase.

1.4 分布式存储特性

一致性:分布式存储系统会将数据冗余备份,称之为replication/copy. 副本是目前分布式存储系统容错的唯一方法。如有3个客户端A,B,C

强一致:如A先写入,系统保证后续A,B,C的读去都返回最新值

弱一致:如A先写入,系统不保证后续A,B,C的读去都返回最新值

最终一致:“最终”只有个时间的延迟,如replication等,如A先写入,同时假设后续无其他更新相同的值,“最终”A,B,C都会读到A写入的最新值

数据分布:分布式存储当然会设计数据如何分布了,同时要考虑自动负载均衡

哈希分布:无需多说,类似HashMap的index了,基本思路都是选取某业务相关主键key,然后hash(key) % N(服务器数量), 当然如果这里hash函数的散列性比较好的话,数据可以比较均匀的分布到集群。

顺序分布:通常做法是将一个大表顺序划分成连续范围,即子表。如经常用来举例的用户表,按照主键分为1-10000,10001-20000,… 80000-90000等。再添加类似B+树索引。其中叶子相当于子表。

分布式复制:replication,常见做法类似数据库同步操作日志(commit log)

容错:容错是分布式存储系统设计的重要目标,当然是自动容错。

故障检测:心跳,通用做法。官方叫法是,Lease(租约)协议,即带有超时时间的一种授权。

故障恢复:迁移,通用做法。但是当Master节点/总控节点出现故障时,为了HA, 我们就要重新选主了,正所谓国家不可一日无主,当然现代社会,要通过Paxos协议选举,如我们介绍过的ZK.

2. 分布式协议

2.1 两阶段提交协议

Two-phase Commit, 2PC.主要用来确保多个节点或者分布式操作的原子性。如果有使用过JTA或者做过大型银行转账系统的应该使用过。

恰如其名,2PC通常分为两个阶段:

阶段1: 请求阶段Prepare Phase, 协调者通知参与者准备提交或者取消事务;

阶段2: 提交阶段Commit Phase, 协调者将阶段1的结果进行投票表决,当且仅当所有参与者同意提交事务时,协调者才通知所有参与者提交,否则通知所有参与者取消。

两阶段提交协议是阻塞协议,执行过程中需要加锁,且无法容错,所以… 大多数分布式存储系统都避而远之。

2.2 Paxos协议

准备prepare: Proposer首先选择一个提议序号n给其它acceptor节点发送

prepare消息,Acceptor收到消息后,如果提议序号已经大于它已经回复的所有prepare消息,则acceptor将自己上次接受的提议回复给proposer,并承诺不再回复小于n的提议。

批准accept:Proposer收到了acceptor中多数派队prepare的回复后,就进入批准阶段。如果在之前的prepare阶段acceptor回复了上次接受的提议,则提议值发给acceptor批准。Acceptor在不违背它之前在prepare阶段的承诺前提下接受这个请求。如果超过一半的acceptor接受,提议值生效,Proposer发送acknowledge消息通知所有acceptor。

3. 现有分布式系统

3.1 分布式文件系统

GFS是Google分布式存储的基石。

GFS系统节点可以分为三种角色:GFS Master, GFS ChunkServer, GFS Client.

GFS文件被划分固定大小的数据库,称为Chunk, 由Master分配一个64位全局唯一ID; ChunkServer(CS)以普通Linux文件形式将chunk存储在磁盘,为了HA, Chunk被replication,默认3份。

客户端访问GFS时,首先访问Master,获取CS信息,之后再去访问CS,完成数据存取。GFS目前主要用于MapReduce, Bigtable.

3.2 分布式键值系统

分布式键值类似于分布式表格模型Bigtable的一种特例。比较著名的有Amazon Dynamo, Memcache以及国内阿里的Tair系统。

Tair分布式系统

Tair是阿里/淘宝开发的一个分布式键/值存储系统,tair分为持久化和非持久化两种方式。非持久化的tair可以看作一个分布式缓存,持久化的tair将数据存放置磁盘,当然tair可以自动备份以避免磁盘损坏等问题。

Tair由一个Master和一系列Slave节点组成,称之为Config Server作为整体的控制中心,而服务节点为可伸缩的Data Server。Config Server负责管理所有的data server, 维护其状态信息。Data Server则对外提供各种数据服务,并以心跳来将自身信息反馈给config server。可以看到,Config Server是核心控制点,而且是单点,只有主-备形式保证其可靠性。

Tair:http://tair.taobao.org/

3.3 分布式表格系统

顾名思义,表格模型,多行多列,通过主键唯一标识。如始祖Google Bigtable。

Google Bigtable:

基于GFS与Chubby的分布式表格系统,目标是解决读取速度,许多Google数据如web索引,卫星图像数据都存放在bigtabe。

3.4 分布式数据库

关系型数据库汇集了计算机领域的智慧,也为如今互联网,大数据做好了铺垫。在互联网时代,如何水平扩展是传统关系型数据的最大挑战。

MySQL Sharding

通常水平扩展的做法是应用层按照规则将数据拆分到多个分片,分布到多个数据库节点,并引入一个中间层应用来屏蔽后段的拆分细节。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  分布式