您的位置：首页 > 数据库 > SQL

《深入浅出MySQL--数据库开发、优化与管理维护》读书笔记--开发篇

2015-08-23 15:30 831 查看

本文是《深入浅出MySQL--数据库开发、优化与管理维护》的读书笔记，其中也包含了我自己的一些理解，不一定全对，先记录下来再说。

最近做新项目，使用MySQL作为数据库，之前只有Oracle的使用经验。刚开始使用MySQL的时候，感觉十分不习惯，现在回想起来，如果项目刚启动时可以读到这本书，想必我会轻松许多。

数据类型的选择

数据库里的数据最终需要持久化到硬盘上，而硬盘的I/O效率通常都比较低，那么提高I/O效率可以有效的改善应用的性能表现。虽然硬盘价格很低，但考虑到I/O效率，存储数据时务必要依据业务需求，寻求占用空间最省的方式来保存数据，以期提高I/O的效率。
对于字符串，要根据存储引擎来进行选择。如果使用InnoDB，则推荐使用varchar，效率未必会比char低。
对于精度要求比较高的应用，建议使用定点数来保存数值，另外从编程的角度来看，对精度有要求的业务，应当避免使用浮点类型。
对于含有TEXT或者BLOB的表来说，如果经常会做删除和修改操作，则建议经常使用optimize table命令来对表做碎片处理，优化存储；另外，假如TEXT或者BLOB字段不经常被检索，从优化I/O效率的角度考虑，可以把对应字段抽取出来，用单独的表来存储数据。
日期类型要根据实际需要选择能够满足应用的最小存储的日期类型。DATETIME和TIMESTAMP相比，都可以存储年、月、日、时、分、秒，但DATETIME表示的范围比较大，而TIMESTAMP可以支持时区，各有所长。

字符集

MySQL的字符集包含字符集（CHARACTER）和校对规则（COLLATION）两个概念。字符集用来定义MySQL存储字符串的方式，校对规则则定义了字符串比较的方式；字符集和校对规则是一对多的关系，即一种字符集可以支持多种校对规则。

校对规则的命名方式，以字符集的名称开头，以_ci/_cs/_bin结束，_ci表示大小写不敏感，_cs表示大小写敏感，_bin表示基于字符编码的值来比较、与存储的语言自身无关。比如对于字符集utf8，对应的校验规则有utf8_ci、utf8_cs、utf8_bin。

MySQL数据实例可以在服务器级别、数据库级别、表级和字段级设置字符集和校对规则，作用范围不同。

注意点：
从已有经验看，使用utf8作为默认的字符集，开发过程会比较轻松加愉快，因为这样可以简单的搞定中文和英文。
修改已存在的数据库、表的字符集或者校对规则时，不会对已存在的数据产生影响。如果系统运行一段时间之后期望调整字符集和校验规则，同时期望修正已有的数据，那么需要将数据导出，调整字符集之后重新导入数据库实例。
应用和MySQL通信时，当前MySQL提供了三个参数来控制字符集，character_set_client、character_set_connection、character_set_results，三者如无明确设置，一般是一样的；三者假如不同，写入的数据和最终读出的数据可能会存在差异，因此开发过程中应当避免设置这三个参数。

索引的设计和使用

索引用于快速找到在某个列中有一特定值的行，如果没有索引，那么就需要从第一行开始、到最后一行结束，遍历表的全部记录才能提到相关行，那么I/O的代价就太高，效率低就是自然了。

设计索引或者创建索引的原则
索引可以有效的提升查询数据的效率，但索引数量不是多多益善，索引越多，维护索引的代价自然也就水涨船高。对于插入、更新、删除等DML操作比较频繁的表来说，索引过多，会引入相当高的维护代价，降低DML操作的效率，增加相应操作的时间消耗。另外索引过多的话，MySQL也会犯选择困难病，虽然最终仍然会找到一个可用的索引，但无疑提高了选择的代价。
索引字段的选择，最佳候选列应当从where子句的条件中提取，如果where子句中的组合比较多，那么应当挑选最常用、过滤效果最好的列的组合。
使用唯一索引，区分度越高，使用索引的效率越高。
使用短索引，索引创建之后也是使用硬盘来存储的，因此提升索引访问的I/O效率，也可以提升总体的访问效率。假如构成索引的字段总长度比较短，那么在给定大小的存储块内可以存储更多的索引值，相应的可以有效的提升MySQL访问索引的I/O效率。
利用最左前缀，N个列组合而成的组合索引，那么相当于是创建了N个索引，如果查询时where子句中使用了组成该索引的前几个字段，那么这条查询SQL可以利用组合索引来提升查询效率。

Hash索引的特点
只能作=或者!=/<>的比较。
优化器无法使用索引来加速order by操作。
无法确定两个值之间有多少行。
使用关键字检索时，一次只能检索到一行。

如果觉得不好理解的话，对照java.util.HashMap的使用方法就好懂了。

BTree索引可以使用的操作符相对要多一些，比如可以使用>、=、<=、between、!=或者<>、like，相应的适用范围会广一些；在特定场景下，相比于Hash索引，效率会有所损失。

视图的使用

相比于普通的表，视图的优势
简单，使用视图的用户完全不需要关注视图背后的表的结构、关联条件和筛选条件，站在视图定义者的角度来看，用户访问到的是过滤好的结果集。
安全，通过视图可以方便的控制用户可以访问到的行与列的集合，但普通的表则无法做到。
数据独立，或者可维护性好，通过提供视图，开发者可以屏蔽表结构、表名对用户的影响，相关的变动不会影响到视图的用户。

不过视图也有缺点，比如对视图返回的结果集做过滤时，无法使用索引，假如视图返回的结果集比较大，而需要的结果集比较小时，查询的效率其实是比较低的。

我印象里，通过视图是不允许修改数据的，但现在这个观念要改改了。通过使用MySQL和Oracle提供的视图是可以修改原表中的数据的，只不过有些限制，使用时需要详细阅读官方文档。我平日的工作里，视图都很少用到，所以这部分资料看看就过了，假如以后有机会用的话，那时再来仔细研究也不迟。

锁定语句

使用mysqldump命令导出数据时，会发现lock table和unlock table的命令，这不同于Oracle，初次看到时感觉蛮还蛮神秘的。

lock table，用来锁定当前线程使用的表，如果表被其它线程锁定，则当前线程将会等待；同一线程中重复执行lock table会使用前一次锁定的表被释放锁定。

unlock table，用来释放当前线程获得到的任何锁定；与DB的通信连接对象关闭时，当前线程中锁定的表将会自动释放锁定。

使用lock table和unlock table的意义在哪里？大批量数据短时间内加载至表内时，为了减少冲突，提高效率，这应该是一种场景，其它场景我暂时还想不到。

事务控制

MySQL提供了set autocommit、start transaction、commit和rollback等命令来实现事务的控制。
start transaction或者begin用来开启新的事务。
commit和rollback用来提交或者回滚事务。
set autocommit可以修改当前连接的提交方式。

Oracle只需要设置set autocommit，即可以用手动方式控制事务，但MySQL可能会有所不同，需要在办公室尝试下。

分布式事务，目前还没有用到过，待后续有机会使用的时候再仔细阅读资料。

SQL Mode

相比于Oracle，这个东东是MySQL独有的特性。应该兼顾数据库移植性、性能和效率、开发正确性和业务场景几方面考虑，选择合适的模式。

分区

分区表是一个非常强大的特性，利用这个特性，可以带来如下好处
透明的管理存储有海量数据的大表，由数据库来管理对不同分区的访问，使用者完全不必关心。
可以有效的提升数据的访问效率和吞吐量，对不同分区的访问可以并发进行，互不影响。
简化表的管理，当部分分区的数据不需要时，可以通过删除相关的分区来快速清理数据，而不必使用传统的delete语句，引入不必要的复杂性。
。。。

之前的项目使用Oracle来存储数据，应用了Oracle的分区技术；现在的项目由于数据量及业务复杂度的原因，暂时还没有应用MySQL的分区，所以没有什么使用经验可以分享。

------------------------------

欢迎访问Jackie的家，http://jackieathome.sinaapp.com/，如需转载文章，请注明出处。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： MySQL

相关文章推荐

新的分享

章节导航