您的位置:首页 > 数据库 > Mongodb

MongoDB数据文件内部结构 (MongoDB Storage Internal)

2012-09-21 23:13 344 查看


源文章链接 http://blog.nosqlfan.com/html/3515.html

以下我做了一点注释


MongoDB数据文件内部结构

作者:nosqlfan on
星期一, 十二月 5, 2011 · 7条评论 【阅读:5,033
次】

有人在Quora上提问:MongoDB数据文件内部的组织结构是什么样的。随后10gen的工程师Jared
Rosoff出来做了简短的回答。

每一个数据库都有自己独立的文件(不是一个)。如果你开启了directoryperdb选项,那你每个库的文件会单独放在一个文件夹里。

数据库文件在内部会被切分成单个的块,每个块只保存一个名字空间的数据。在MongoDB中,名字空间用于区分不同的存储类别。比如每个collection有一个独立的名字空间,每个索引也有自己的名字空间。

在一个块中,会保存多条记录,每条记录是BSON格式的,记录与记录之间通过双向链表进行连接。(因为是MMAP,所以文件是内存的映射)

索引数据也存在数据文件中,不过索引是被组织成B Tree结构,而不是双向链表。

对每个数据库,有一个命名空间文件,用于保存每个名字空间对应的元数据。我们通过查询这些元数据来找到对应的名字空间的存储块位置。

如果你开启了jorunaling日志,那么还会有一些文件存储着你所有的操作记录。

下面图片摘自10gen工程师Mathias Stearn在MongoSV2011大会上的发言稿,手绘的数据文件结构。


1.每个数据库有相应的数据文件和命名空间文件




2.数据文件从16MB开始,新的数据文件比上一个文件大一倍,最大为2GB




3.文件使用MMAP进行内存映射,会将所有数据文件映射到内存中,但是只是虚拟内存,只有访问到这块数据时才会交换到物理内存。






4.(32位机中)MongoDB的数据文件映射到内存表中的位置






5.使用32位机器的话,内存地址最大可以标识4GB内存






6.但是在32位机器上,4GB内存会有1GB被内核战用,大约0.5GB会用于mongod进程的stack空间,只剩下大约2.5GB可用于映射数据文件。








7.在64位机器上则最多可以表示128TB的空间








8.每个数据文件会被分成一个一个的数据块(用于存储数据),块与块之间用双向链表连接





(肿么还有个接地线?)


9.在名字空间文件(数据库名.ns)中,保存的是一个hash table,保存了每个名字空间的存储信息元数据(NamespaceDetails),包括其:大小,块数,第一块位置,最后一块位置,被删除的块的链表以及索引信息






10.这些位置通过DiskLoc数据结构[A pointer to a location on disk]进行存储,存储了数据文件编号和块在文件中的位置








11.对每一个块(Extent)来说,其头部包含了一些块的元数据:



比如自己的位置(myLoc,8B=DiskLoc[ation]),
上一个和下一个块的位置(Extent's DiskLoc[ation])
以及块中第一条和最后一条记录[record]的位置指针(offset 4B,块中地内部偏移都是4B大小)。
(length with Headers,整个Extent的大小)
剩下的部分用于存储具体的数据[record中包括extentOfs,record本身的偏移,next,pre,data],具体数据之间也是通过双向链接来进行连接。








12.下面是B Tree的存储结构和工作原理

















内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: