您的位置：首页 > 编程语言 > Python开发

Python源码剖析-Dict

2016-05-24 21:05 337 查看

为了刻画某种关系，现代的编程语言都会提供关联式的容器。关联式容器中的元素分别是以（键（key）或值（value））这样的形式存在。例如（3，5）（3，6）就是一对对应的键与值。
Python中的关联式容器是PyDictObject。Python通过PyDictObject建立执行Python字节码的运行环境，其中会存放变量名和变量值的元素对，通过查找变量名获得变量值。

PyDictObject运用了（hash table）散列表，最优情况下能达到O（1）复杂度的搜索效率。

散列表：

基本思想：键值映射整数，通过一片连续内存的索引对应相对的值

散列效率高，但是不同的对象运用散列函数有可能会产生相同的散列值、即是易冲突

相关概念：装载率（如果散列表一共可以容纳10个元素，而当前已经装入6个元素，那么装载率就是6/10）,研究表明当散列表的装载率大于2/3时，散列冲突的发生概率大大增加

解决办法：开放定址法（通过一个二次探测函数f，计算下一个地址，如果可用则插入不可用则计算下一个候选位置）

缺点：删除时不能完成删除元素，否则会造成断链，解决的办法是：伪删除

entry/slot ->关联容器（键）

一个entry的定义如下：

typedef struct {

Py_ssize_t me_hash; //记录me_key 的散列值，避免每次都要计算

PyObject *me_key; //指向键

PyObject *me_value; //指向值

} PyDictEntry;

因为key和value 都是PyObject，故什么东西都可以放进去Dict
entry有三种状态：
①Unused态 →key，value = Null
②Active 态 → key！= dummy，key！=Null，value ！= Null
③Dummy 态 → key = Dummy， value = Null
三态的转换关系如下：

在PyDictObject定义中，

有一个ma_smalltable(PyDict_MINSIZE) 意味着至少有X个entry被创建（在这里X=8，可在源码修改）
定义是分两种情况：①元素数目小于8， ma_table 指向 ma_smalltable
②元素数目大于8, ma_table指向额外内存

第一次调用PyNew的时候会创建Dummy对象，Dummy则指向一个PyStringObject对象

元素的搜索：lookdict、lookdict_string-(算法相同) 后者是为键值为String提供便利因为在python中一PyStringObject对象作为PyDictObject的键是十分常见的，故lookdict_string成为了PyDictObject中默认的搜索算法

dict的key匹配值有两层含义：
①引用相同，即两符号指向同一地址
②值相同，两个对象指向不同的地址，但是值相同
e.g.:Python大整数是不共享内存的，如下例子：

d = {}
d[9527] = 'Python'
print(d[9527])
//上面两个9527指向不同的地址，但值相同

接下来看看第一次搜索：
[1]根据hash获得entry的索引，这里是第一个索引
[2]if entry处于Unused态，即字典中无这个key，第一个索引失败 if entry->me_key == key,表明匹配，搜索成功
[3]if entry 处于Dummy态，设置freeslot（最后如果找不到是会返回freeslot，提示系统这里有一个dummy，快来用掉它）
[4]if entry 处于active ，检查是否值相同，若相同则搜索成功

所第一个entry不匹配，则沿着探测链，顺藤摸瓜，依次比较探测链上的entry与带查找的key
①若搜索成功，则ep一定指向一个有效的entry
②若搜索不成功，此时ep肯定处于一个Unused态的entry
不能直接返回，因为有可能在搜索链的过程中发现dummy，故须返回给Python使用

lookdict_string(有条件限制)（优化）
key是PyDictObject

if(!PyString_checkEcact(key)){
mp->ma_lookup = lookdict;
return lookdict(mp_key, hash);
}

lookdict_string 效率比lookdict高

元素插入：
ep = mp->ma_lookup(mp, key, hash);
成功：

if (ep->me_value != Null){
old_value = ep->me_value;
ep->me_value = new_value;
Py_DECREF(old_value);
Py_DECREF(key);
}

else将key， value覆给ep（ep可以为Dummy，Unused）

在插入元素的动作结束后，会检查是否需要改变PyDictObject内部ma_table的内存大小
条件：当增加元素个数且装载率大于2/3时

改变内存大小由dictresize执行
[1]确定新的table大小，这个大小要大于传入的数值，从8开始乘以2的指数倍（2的n此方），直到超过传入的数值
[2]==8，不需要重新分配内存，直接指向ma_smalltable
[3]>=8,重新分配内存
[5]对非Unused做处理，若为active则插入，若为dummy则丢弃，也就是重新做字典，类似一个新字典里面是没有dummy的
[6]如果旧的table指向内存（>8）则释放

删除：与插入很像，先计算hash值，找到相对应的entry，删除维护的元素，将active转为dummy，调整table使用情况（ma_used--1）

字典结束

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python hash 索引内存字典

相关文章推荐

新的分享

章节导航