数据库中间件分片算法之hash
2019-12-31 01:31
1606 查看
前言
夜深人静的时候,打开
云音乐,点上一曲
攀登,带上真无线蓝牙耳机,瞬间燃到爆,键盘打字如飞倦意全无。
分片规则
这几天有人问我,dble和MyCat到底有什么不同。其实dble作为MyCAT的同门,吸收了MyCat的精华,同时也相应的做了一些减法。只支持MySQL显得更加的纯粹。所以选择对比学习两者我觉得挺好。
前面我们学习了schema.xml文件的配置,我们能独立的把
逻辑库和
逻辑表搭建起来,让数据表跟随我们的定义规则(取模)进行分布。今天我们介绍具体的分片算法。
dble相对于
mycat来说,是做了一些减法的。比如一致hash算法就没有,而是使用了
jumpstringhash代替了一致性hash。具体原因可以参考文章
dble 沿用 jumpstringhash,移除 Mycat 一致性 hash 原因
hash分区算法
- stringhash分区算法
- enum分区算法
- numberrange分区算法
- patternrange分区算法
- date分区算法
- jumpstringhash算法
HASH分区算法
Hash分区算法是一种比较典型而且常用的算法。要使用HASH分区算法需要在rule.xml中定义两个部分。
分区规则定义
如下所示,使用
tableRule标签定义,name对应的是规则的名字,而
rule标签中的
columns则对应的分片字段,这个字段必须和表中的字段一致。
algorithm则代表了执行分片函数的名字。
<tableRule name="auto-sharding-long"> <rule> <columns>id</columns> <algorithm>rang-long</algorithm> </rule> </tableRule>
分区算法定义
如下所示,使用
function标签定义分区算法,name代表算法的名字,算法的名字要和上面的tableRule中的
<function name="rang-long" class="com.actiontech.dble.route.function.AutoPartitionByLong"> <property name="mapFile">auto-sharding-long.txt</property> ... </function>
partitionCount
:指定分区的区间数,具体为 C1 +C2 + ... + CnpartitionLength
:指定各区间长度,具体区间划分为 [0, L1), [L1, 2L1), ..., [(C1-1)L1, C1L1), [C1L1, C1L1+L2), [C1L1+L2, C1L1+2L2), ... 其中,每一个区间对应一个数据节点。
测试Hash分区算法
1.在启动的时候,两个数组点乘做运算,得到取模数。
2.两个数组进行叉乘,得出物理分区表。
3.根据where条件的值来落入实际分片
select * from shareding_key = 999;
先根据分片键取出999,按照公式1的计算结果除取模,然后得到的值落到2计算出来的分片中。
4.举个简单的例子:
<property name="partitionCount">2,3</property> <property name="partitionLength">100,50</property>
根据公式1
也就是传进来的值需要对350取模。
根据公式2,物理分区为
999对350取模,正好是299。落在250-300这个区间里面。也就是第4个区间。
接下来我们实际来测试一下,我们在rule.xml中设置如下:
<tableRule name="rule_hash"> <rule> <columns>id</columns> <algorithm>func_hash_test</algorithm> </rule> </tableRule> <function name="func_hash_test" class="Hash"> <property name="partitionCount">2,3</property> <property name="partitionLength">100,50</property> </function>
我们通过公式2算出有5个分片。所以在schema.xml中设置table属性如下:
<table name="hash_test" primaryKey="id" rule="rule_hash" dataNode="dn1,dn2,dn3,dn4,dn5"/>
5.创建表测试
我们先使用shell创建1000行数据,在创建表,通过load data语法将我们shell产生的文件进行导入。
for i in {1..1000} do echo $i'|name'$[i]'' >>a1.txt done
请原谅我作为一个GEEK,把桌面和终端完美结合成二次元是标配。
这里可以看到我们查询999这个数据,会自动到dn4这个分片上进行查询。再比如我们查500,500对350取模是150,150是落在第二个分区里面的。
6.另一个例子
<property name="partitionCount">2</property> <property name="partitionLength">1000</property>
此时C _L=2_1000=2000,将对2000进行取模。
同时将划分如下的分区:
注意事项
- M不能大于2880。2880的原因是这样的:2, 3, 4, 5, 6, 8, 9, 10, 12, 15, 16, 18, 20, 24, 30, 32, 36, 40, 45, 48, 60, 64, 72, 80, 90, 96, 120, 144, 160, 180, 192, 240, 288, 320, 360, 480, 576, 720, 960, 1440是2880的约数,这样预分片扩容方便。
- N必须要等于schema.xml中使用该分区算法的逻辑表的dataNode属性指定的DataNode数量之和,比如我们上面这个算法是5个分区,但是如果你在逻辑表的dataNode属性中设置分区个数小于5,dataNode="dn1,dn2,dn3,dn4",则dble就会报错。
partition size : 5 > table datanode size : 4 please make sure table datanode size = function partition size
- $C_n$和$L_n$的个数必须相等。
- 分区字段必须为整型字段,如果是其他类型,要求值可转化为数字。
- 当partitionLength为1时,hash分区算法退化为求模算法,M及N均为partitionCount的值。
- NULL作为分片列的值的时候数据的结果恒落在0号节点(第一个节点上),建议最好不要让这种情况出现,强制设置分片键为not null。
后记
今天学习了分片算法Hash。后续将继续分享其他的算法。谢谢支持!
相关文章推荐
- 数据库相关算法 之 xxHash
- 数据库中间件 MyCAT 源码解析 —— 分片结果合并(一)
- MyCat:开源分布式数据库中间件之数据库分片和读写分离配置
- jedis分布式之 ShardedJedisPool (一致性Hash分片算法)
- 分布式 | MyCat如何迁移到DBLE之分片算法对比解析:stringhash分片
- 数据库中间件 MyCAT 源码解析 —— 分片结果合并(一)
- Mycat 分片算法 PartitionByMod | PartitionByHashMod
- 数据库 Hash Join的定义,原理,算法,成本,模式和位图
- 公开课《数据库中间件在业务系统中的作用》
- 两种数据库,四种分页算法的效率比较
- 一致性 hash 算法( consistent hashing )
- 无限级分类算法数据库设计
- 数据库 分库分表中间件 Cobar 介绍
- 【表空间支持的最大数据文件大小的算法】【数据库限制】【数据文件文件头保留数据块数】
- django数据库操作和中间件
- OFBiz entity engine 关于数据库自增序列生成算法的源码解读
- 一致性 hash 算法
- 数据库中间件-mycat快速入门
- 大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 决策树分析算法)
- 一致性 hash 算法