您的位置:首页 > 数据库 > MySQL

MySQL 有效的建立索引

2015-10-18 22:31 501 查看

0. 引言

当数据库中的数据量达到亿级,数十亿级的时候,普通的一条查找语句都可能耗时非常长,解决此问题的一个有效方法是有效的建立索引

1.建立索引的准则

合理的建立索引能够加速数据读取效率,不合理的建立索引反而会拖慢数据库的响应速度

索引越多,更新数据的速度越慢

尽量在采用MyIsam作为存储引擎的时候使用索引(因为MySQL以BTree存储索引),而不是InnoDB,但是MySAIM不支持Transcation

当你的程序和数据库结构/SQL语句已经优化到无法优化的程度,而程序瓶颈并不能顺利解决,那就是应该考虑使用诸如memcached这样的分布式缓存系统的时候了。

习惯和强迫自己用EXPLAIN来分析你SQL语句的性能。

PS:不要在选择的栏位上放置索引,这是无意义的。应该在条件选择的语句上合理的放置索引,比如where,order by。

例子:

SELECT id,title,content,cat_id FROM article WHERE cat_id = 1;


上面这个语句,你在id/title/content上放置索引是毫无意义的,对这个语句没有任何优化作用。但是如果你在外键cat_id上放置一个索引,那作用就相当大了。

2.几个常用ORDER BY语句的MySQL优化:

1、ORDER BY + LIMIT组合的索引优化。

如果一个SQL语句形如:

SELECT [column1],[column2],....
FROM dbName
ORDER BY [sort]
LIMIT [offset],[LIMIT];


这个SQL语句优化比较简单,在[sort]这个栏位上建立索引即可。

2、WHERE + ORDER BY + LIMIT组合的索引优化,形如:

SELECT [column1],[column2],....
FROM
WHERE [columnX] = [value]
ORDER BY [sort]
LIMIT[offset],[LIMIT];


这个语句,如果你仍然采用第一个例子中建立索引的方法,虽然可以用到索引,但是效率不高。更高效的方法是建立一个联合索引(columnX,sort)

3、WHERE + IN + ORDER BY + LIMIT组合的索引优化,形如:

SELECT [column1],[column2],....
FROM
WHERE [columnX] IN ([value1],[value2],...)
ORDER BY[sort]
LIMIT [offset],[LIMIT];


这个语句如果你采用第二个例子中建立索引的方法,会得不到预期的效果(仅在[sort]上是using index,WHERE那里是using where;using filesort),理由是这里对应columnX的值对应多个。

这个语句怎么优化呢?我暂时没有想到什么好的办法,看到网上有便宜提供的办法,那就是将这个语句用UNION分拆,然后建立第二个例子中的索引:

SELECT [column1],[column2],....
FROM
WHERE [columnX]=[value1]
ORDER BY [sort]
LIMIT[offset],[LIMIT]

UNION

SELECT [column1],[column2],....
FROM
WHERE [columnX]=[value2]
ORDER BY [sort]
LIMIT[offset],[LIMIT]

UNION


……

但经验证,这个方法根本行不通,效率反而更低,测试时对于大部分应用强制指定使用排序索引效果更好点

4、不要再WHERE和ORDER BY的栏位上应用表达式(函数),比如:

SELECT * FROM  ORDER BY YEAR(date) LIMIT 0,30;


5、WHERE+ORDER BY多个栏位+LIMIT,比如

SELECT * FROM  WHERE uid=1 ORDER BY x,y LIMIT 0,10;


对于这个语句,大家可能是加一个这样的索引(x,y,uid)。但实际上更好的效果是(uid,x,y)。这是由MySQL处理排序的机制造成的。

以上例子你在实际项目中应用的时候,不要忘记在添加索引后,用EXPLAIN看看效果。

另外注意:

索引的字段类型要一致

3.什么情况下不应该创建索引

一般来说,不应该创建索引的的这些列具有下列特点:

第一,对于那些在查询中很少使用或者参考的列不应该创建索引。这是因 为,既然这些列很少使用到,因此有索引或者无索引,并不能提高查询速度。相反,由于增加了索引,反而降低了系统的维护速度和增大了空间需求。

第二,对于那 些只有很少数据值的列也不应该增加索引。这是因为,由于这些列的取值很少,例如人事表的性别列,在查询的结果中,结果集的数据行占了表中数据行的很大比 例,即需要在表中搜索的数据行的比例很大。增加索引,并不能明显加快检索速度。

第三,对于那些定义为text, image和bit数据类型的列不应该增加索引。这是因为,这些列的数据量要么相当大,要么取值很少。

第四,当修改性能远远大于检索性能时,不应该创建索 引。这是因为,修改性能和检索性能是互相矛盾的。当增加索引时,会提高检索性能,但是会降低修改性能。当减少索引时,会提高修改性能,降低检索性能。因 此,当修改性能远远大于检索性能时,不应该创建索引。

4.索引的存储分类

MySQL目前提供4种索引。

B-Tree索引,最常见的索引类型,大部分引擎都支持B-Tree索引

HASH索引,只有Memory引擎支持

R-Tree索引(空间索引),MySIAM的一个特殊索引类型,主要用于GIS

Full-text(全文索引),MySIAM的一个特殊索引类型,InnoDB从MySQL5.6版本开始支持Full-Text

4.1 MySQL如何使用索引

B-Tree——Balanced Tree,平衡树,不是二叉树(binary tree)

1.添加PRIMARY KEY(主键索引)
ALTER TABLE `table_name` ADD PRIMARY KEY ( `column` )

2.添加UNIQUE(唯一索引)
ALTER TABLE `table_name` ADD UNIQUE ( `column` )

3.添加INDEX(普通索引)
ALTER TABLE `table_name` ADD INDEX index_name ( `column` )

4.添加FULLTEXT(全文索引)
ALTER TABLE `table_name` ADD FULLTEXT ( `column`)

5.添加多列索引
ALTER TABLE `table_name` ADD INDEX index_name ( `column1`, `column2`, `column3` )


4.2 MySQL中能够使用索引的典型场景

全值匹配

explain select cpu_use_rate
from terminal_data_file
where cpu_use_rate = 90




table

显示这一行的数据是关于哪张表的

type

这是重要的列,显示连接使用了何种类型。从最好到最差的连接类型为const、eq_ref、ref、range、index和ALL

type:不同连接类型的解释(按照效率高低的顺序排序)

system

表只有一行:system表。这是const连接类型的特殊情况

const

表中的一个记录的最大值能够匹配这个查询(索引可以是主键或惟一索引)。因为只有一行,这个值实际就是常数,因为MYSQL先读这个值然后把它当做常数来对待

eq_ref

在连接中,MYSQL在查询时,从前面的表中,对每一个记录的联合都从表中读取一个记录,它在查询使用了索引为主键或惟一键的全部时使用

ref

这个连接类型只有在查询使用了不是惟一或主键的键或者是这些类型的部分(比如,利用最左边前缀)时发生。对于之前的表的每一个行联合,全部记录都将从表中读出。这个类型严重依赖于根据索引匹配的记录多少—越少越好

如果键不是UNIQUE或 PRIMARY KEY类型(换句话说,如果连接操作不能根据键值选择出唯一行),则MySQL使用ref连接类型。如果连接操作所用的键只匹配少量的记录,则ref是一种好的连接类型。

range

这个连接类型使用索引返回一个范围中的行,比如使用>或<查找东西时发生的情况

index

这个连接类型对前面的表中的每一个记录联合进行完全扫描(比ALL更好,因为索引一般小于表数据)

ALL

这个连接类型对于前面的每一个记录联合进行完全扫描,这一般比较糟糕,应该尽量避免

possible_keys

显示可能应用在这张表中的索引。如果为空,没有可能的索引。可以为相关的域从WHERE语句中选择一个合适的语句

key

实际使用的索引。如果为NULL,则没有使用索引。很少的情况下,MYSQL会选择优化不足的索引。这种情况下,可以在SELECT语句中使用USE INDEX(indexname)来强制使用一个索引或者用IGNORE INDEX(indexname)来强制MYSQL忽略索引

key_len

使用的索引的长度。在不损失精确性的情况下,长度越短越好

ref

显示索引的哪一列被使用了,如果可能的话,是一个常数

rows

MYSQL认为必须检查的用来返回请求数据的行数

Extra

关于MYSQL如何解析查询的额外信息。将在表中讨论,但这里可以看到的坏的例子是Using temporary和Using filesort,意思MYSQL根本不能使用索引,结果是检索会很慢

extra列返回的描述的意义

Distinct

一旦MYSQL找到了与行相联合匹配的行,就不再搜索了

Not exists

MYSQL优化了LEFT JOIN,一旦它找到了匹配LEFT JOIN标准的行, 就不再搜索了

Range checked for each Record(index map:#)

没有找到理想的索引,因此对于从前面表中来的每一个行组合,MYSQL检查使用哪个索引,并用它来从表中返回行。这是使用索引的最慢的连接之一

Using filesort

看到这个的时候,查询就需要优化了。MYSQL需要进行额外的步骤来发现如何对返回的行排序。它根据连接类型以及存储排序键值和匹配条件的全部行的行指针来排序全部行

Using index

列数据是从仅仅使用了索引中的信息而没有读取实际的行动的表返回的,这发生在对表的全部的请求列都是同一个索引的部分的时候

Using temporary

看到这个的时候,查询需要优化了。这里,MYSQL需要创建一个临时表来存储结果,这通常发生在对不同的列集进行ORDER BY上,而不是GROUP BY上 www.2cto.com

Where used

使用了WHERE从句来限制哪些行将与下一张表匹配或者是返回给用户。如果不想返回表中的全部行,并且连接类型ALL或index,这就会发生,或者是查询有问题

匹配值的范围查询

EXPLAIN
select cpu_use_rate
from terminal_data_file
where cpu_use_rate > 85


匹配最左前缀(Match a leftmost prefix)

仅仅使用最左边列进行查找,如(col1,col2,col3)字段上的联合索引能被包含col1,(col1+col2),(col1+col2+col3)的等值查询利用到,可是不能被col2,(col2+col3)的等值查询利用到

仅仅对索引进行查询

匹配列前缀(Match a column prefix)

能够实现索引匹配部分精确而其他部分进行范围匹配

如果列名是索引,那么使用column_name is null 就会使用索引

MySQL 5.6 引入 Index Condition Pushdown (ICP)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: