您的位置:首页 > 数据库 > SQL

mysql架构分析

2016-01-30 00:02 543 查看


从上图可以看出,mysql是由众多的组件组成,它们分别是:

连接池组件、管理服务和工具组件、sql接口组件、查询分析器组件、优化器组件、

缓冲组件、插件式存储引擎、物理文件等

一、mysql各模块组成

我们对上图进行简化,mysql server又可以分成两层架构:

第一层SQL Layer,处理底层数据之前的所有工作都在这一层完成,包括权限判断、SQL解析、查询分析优化、缓存等,对应于上图中除了插件式存储引擎部分;

第二层就是存储引擎层Storage Engine Layer,处理底层的数据存取操作,从图上也可以看到,该层由多种存储引擎组成。



虽然简化后的架构看起来很简单,根据上面介绍,我们可以看出,这两层每一层都由很多小模块组成, 比如SQL Layer层的结构就非常复杂:

1、初始化模块

任何服务的启动,首先要做的工作就是对整个系统的各种初始化操作,比如:各种buffer、cache结构的初始化和内存空间的申请,各种系统变量的初始化设定,各种存储引擎的初始化设置等。

2、核心API

核心API模块主要提供一些高效的底层操作功能的优化,比如:底层数据结构的实现、特殊算法、字符串处理、数字处理、小文件I/O、格式化输出、内存管理部分等。这部分的源代码在mysys和strings文件夹下面,后面将对这部分源码进行剖析。

3、网络交互模块

实现底层网络交互,就需要提供交互的接口API,用于底层网络数据的接受和发送、各模块之间的调用、维护等。源码对应于vio文件夹。

4、client&server交互协议模块

C/S结构独有的信息交互协议。包括TCP/IP以及Unix Socket等。

5、用户模块

提供用户登录链接权限控制和用户授权管理。

6、访问控制模块

根据用户的不同角色即各用户的授权信息,加上数据库自身特有的各种约束,来限制用户对数据的访问。Mysql的权限安全管理功能就是由用户模块和访问控制模块组成。

7、连接管理、连接线程、线程管理

连接管理负责监听Mysql的各种请求,接受连接请求,转发所有连接请求到线程管理模块。每一个连接上Mysql的客户端请求都会被分配或创建一个连接线程为单独服务;

连接线程负责Mysql与客户端的通信,接受客户端的命令请求,转发服务端的结果信息等;

线程管理则负责维护这些连接线程,包括线程的创建、线程的cache等。

8、Query解析和转发模块

Query表示mysql中所有client向server端的命令,该模块的工作就是解析Query命令,进行语义和语法分析,然后按照不同的操作类型进行分类,做出针对性的转发,比如用户登录Query就转发给用户模块和访问控制模块等。

9、Query Cache模块

该模块非常重要,它将query请求 的返回结果集cache到内存中,与该query的一个hash值做一个对应。该query所取数据的基表发生任何数据的变化之后,mysql会自动是该query的cache失效。在读写比例非常高的系统中,Query Cache对性能的提高非常显著,缺点就是对内存的消耗大。

10、Query优化器模块

客户端发来的query不会直接进入mysql server,进入之前会经过一系列的算法分析,得出一个最优的策略,告诉后面的程序如何取得这个query语句的结果。

11、表变更管理模块

负责一些DML和DDL的query,如:updata、delete、insert、create 、alter 等语句的处理。

12、表维护模块

负责表的状态检查、错误修复、优化和分析等工作

13、系统状态管理模块

负责将各种状态数据返回给用户,比如DBA常用的各种show status、show variables 命令等,所得结果都由该模块返回。

14、表管理模块

每张表都有一个表的定义文件*.frm,该模块就是维护这些文件,以及一个cache,该cache中的主要内容是各个表的结构信息。此外它还维护table级别的锁管理。

15、日志记录模块

负责这个系统级别的逻辑层日志记录,error log、binary log、slow query log等。

16、复制模块

复制模块可以分为Master和Slave模块。

Master模块主要负责在replication环境中读取Master端的binary log以及与Slave端的I/O线程交互等工作;

Slave模块的工作体现在两个线程上,一个是负责从,Master请求和就是binary log,并写入本地relay log中的I/O线程;另一个负责从relay log中读取相关log事件,然后解析成可以在Slave端正确执行并得到和Master端完全相同的结果命令并交给Slave端执行的SQL线程。

17、存储引擎接口模块

Mysql中最有特色的一个模块,该模块只是一个抽象类,它成功地将各种数据处理高度抽象化,成就了今天Mysql可插拔存储引擎的特色。

二、mysql各个模块之间的合作

在了解了MySQL 的各个模块之后,我们再看看MySQL各个模块间是如何相互协同工作的。

接下来,我们通过启动MySQL,客户端连接,请求query,得到返回结果,最后退出,这样一整个过程来进行分析。

当我们执行启动MySQL 命令之后,MySQL 的初始化模块就从系统配置文件中读取系统参数和命令行参数,并按照参数来初始化整个系统,如申请并分配buffer,初始化全局变量,以及各种结构等。同时各个存储引擎也被启动,并进行各自的初始化工作。当整个系统初始化结束后,由连接管理模块接手。连接管理模块会启动处理客户端连接请求的监听程序,包括tcp/ip 的网络监听,还有unix 的socket。这时候,MySQL Server 就基本启动完成,准备好接受客户端请求了。

当连接管理模块监听到客户端的连接请求(借助网络交互模块的相关功能),双方通过Client & Server 交互协议模块所定义的协议“寒暄”几句之后,连接管理模块就会将连接请求转发给线程管理模块,去请求一个连接线程。

线程管理模块马上又会将控制交给连接线程模块,告诉连接线程模块:现在我这边有连接请求过来了,需要建立连接,你赶快处理一下。连接线程模块在接到连接请求后,首先会检查当前连接线程池中是否有被cache 的空闲连接线程,如果有,就取出一个和客户端请求连接上,如果没有空闲的连接线程,则建立一个新的连接线程与客户端请求连接。当然,连接线程模块并不是在收到连接请求后马上就会取出一个连接线程连和客户端连接,而是首先通过调用用户模块进行授权检查,只有客户端请求通过了授权检查后,他才会将客户端请求和负责请求的连接线程连上。

在MySQL 中,将客户端请求分为了两种类型:一种是query,需要调用Parser 也就是Query 解析和转发模块的解析才能够执行的请求;一种是command,不需要调用Parser 就可以直接执行的请求。如果我们的初始化配置中打开了Full QueryLogging 的功能,那么Query 解析与转发模块会调用日志记录模块将请求计入日志,不管是一个Query 类型的请求还是一个command 类型的请求,都会被记录进入日志,所以出于性能考虑,一般很少打开Full QueryLogging 的功能。

当客户端请求和连接线程“互换暗号(互通协议)”接上头之后,连接线程就开始处理客户端请求发送过来的各种命令(或者query),接受相关请求。它将收到的query语句转给Query 解析和转发模块,Query 解析器先对Query 进行基本的语义和语法解析,然后根据命令类型的不同,有些会直接处理,有些会分发给其他模块来处理。

如果是一个Query 类型的请求,会将控制权交给Query解析器。Query 解析器首先分析看是不是一个select 类型的query,如果是,则调用查询缓存模块,让它检查该query 在query cache 中是否已经存在。如果有,则直接将cache 中的数据返回给连接线程模块,然后通过与客户端的连接的线程将数据传输给客户端。如果不是一个可以被cache 的query类型,或者cache 中没有该query 的数据,那么query 将被继续传回query 解析器,让query解析器进行相应处理,再通过query 分发器分发给相关处理模块。

如果解析器解析结果是一条未被cache 的select 语句,则将控制权交给Optimizer,也就是Query 优化器模块,如果是DML 或者是DDL 语句,则会交给表变更管理模块,如果是一些更新统计信息、检测、修复和整理类的query 则会交给表维护模块去处理,复制相关的query 则转交给复制模块去进行相应的处理,请求状态的query 则转交给了状态收集报告模块。实际上表变更管理模块根据所对应的处理请求的不同,是分别由insert 处理器、delete 处理器、update 处理器、create 处理器,以及alter 处理器这些小模块来负责不同的DML和DDL 的。

在各个模块收到Query 解析与分发模块分发过来的请求后,首先会通过访问控制模块检查连接用户是否有访问目标表以及目标字段的权限,如果有,就会调用表管理模块请求相应的表,并获取对应的锁。表管理模块首先会查看该表是否已经存在于table cache 中,如果已经打开则直接进行锁相关的处理,如果没有在cache 中,则需要再打开表文件获取锁,然后将打开的表交给表变更管理模块。

当表变更管理模块“获取”打开的表之后,就会根据该表的相关meta 信息,判断表的存储引擎类型和其他相关信息。根据表的存储引擎类型,提交请求给存储引擎接口模块,调用对应的存储引擎实现模块,进行相应处理。
不过,对于表变更管理模块来说,可见的仅是存储引擎接口模块所提供的一系列“标准”接口,底层存储引擎实现模块的具体实现,对于表变更管理模块来说是透明的。他只需要调用对应的接口,并指明表类型,接口模块会根据表类型调用正确的存储引擎来进行相应的处理。

当一条query 或者一个command 处理完成(成功或者失败)之后,控制权都会交还给连接线程模块。如果处理成功,则将处理结果(可能是一个Result set,也可能是成功或者失败的标识)通过连接线程反馈给客户端。如果处理过程中发生错误,也会将相应的错误信息发送给客户端,然后连接线程模块会进行相应的清理工作,并继续等待后面的请求,重复上面提到的过程,或者完成客户端断开连接的请求。
如果在上面的过程中,相关模块使数据库中的数据发生了变化,而且MySQL 打开了binlog 功能,则对应的处理模块还会调用日志处理模块将相应的变更语句以更新事件的形式记录到相关参数指定的二进制日志文件中。
在上面各个模块的处理过程中,各自的核心运算处理功能部分都会高度依赖整个MySQL的核心API 模块,比如内存管理,文件I/O,数字和字符串处理等等。




三、mysql 文件

参数文件:告诉Mysql实例启动时在哪里可以找到数据库文件,并且指定某些初始化参数,这些参数定义了某种内存结构的大小等设置。用文件存储,可编辑,若启动时加载不到则不能成功启动(与其他数据库不同)。参数有动态和静态之分,静态相当于只读,动态是可以set的。如我们通过show variable like ‘*‘查出来的key、value值,是可以通过set key=value直接修改的。同是,修改时还有作用域之分,即这个seesion个有效和全局有效,在对应的key前加上session或global即可,如select @@seesion.read_buffer_size、set @@global.read_buffer_size。

日志文件:用来记录Mysql实例对某种条件做出响应时写入的文件。如错误日志文件、二进制日志文件、慢查询日志文件、查询日志文件等。

错误日志:通过show variables like ‘log_error’来查看错误日志存放地址

慢查询日志:通过show variables like ‘%long%’ 查看慢查询日志记录的阈值,新版本设成了0.05;通过show variables like ‘log_slow_queries’查看是否开启了,默认为关闭的;通过show variabes like ‘log_queries_not_using_indexes’查看是将没有使用索引的查询记录到慢日志中。mysql中可以直接通过mysqldumpslow命令来查看慢日志。

二进制文件:不记录查询,只记录对数据库所有的修改操作。目的是为了恢复(point-in-time修复)和复制。通过show variables like ‘datadir’查看存放路径。二进制日志支持STATEMENT、ROW、MIX三种格式,通过binlog_format参数设定,通常设置为ROW,可以为数据库的恢复和复制带来更好的可靠性,但会带来二进制文件大小的增加,复制时会增加网络开销。mysql中通过mysqlbinlog查看二进制日志文件内容。

socket文件:当用Unix域套接字方式进行连接时需要的文件。

pid文件:Mysql实例的进程ID文件。

Mysql表结构文件:用来存放Mysql表结构定义文件。因为Mysql插件式存储引擎的体系结构,每个表都有一个对应的文件,以frm后缀结尾。

存储引擎文件:存储自己的文件来保存各种数据,真正存储了数据和索引等数据。下面主要介绍InnoDB的存储引擎下的表空间文件和重做日志文件。

表空间文件:InnoDB默认的表空间文件为ibdata1,可通过show variables like ‘innodb_file_per_table’查看每个表是否产生单独的.idb表空间文件。但是,单独的表空间文件仅存储该表的数据、索引和插入缓冲等信息,其余信息还是存放在默认的表空间中。

重做日志文件:实例和介质失败,重做日志文件就能派上用场,如数据库掉电,InnoDB存储引擎会使用重做日志恢复到掉电前的时刻,以此来保证数据的完整性。参数innodb_log_file_size指定了重做日志文件的大小;innodb_log_file_in_group指定了日志文件组中重做日志文件的数量,默认为2,innodb_mirrored_log_groups指定了日志镜像文件组的数量,默认为1,代表只有一个日志文件组,没有镜像;innodb_log_group_home_dir指定了日志文件组所在路径,默认在数据库路径下。

二进制日志和重做日志的区别:首先,二进制日志会记录所有与Mysql有关的日志记录,包括InnoDB、MyISAM、Heap等其他存储引擎的日志。而InnoDB存储引擎重做日志只存储有关其本身的事务日志;其次内容不同,不管将二进制日志文件记录的格式设为STATEMENT还是ROW,又或者是MIXED,其记录的都是关于一个事务的具体操作内容。而InnoDB存储引擎的重做日志文件记录的关于每个页的更改的物理情况 。此外,写入时间不同,二进制日志文件是在事务提交前进行记录的,而在事务进行的过程中,不断有重做日志条目被 写入重做日志文件中。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: