MySQL使用总结

栏目: 数据库 · 发布时间: 7年前

内容简介：索引的基数相对于数据表行数较高，工作效果最好。说明列中不同值较多，区分度的公式是 COUNT(DISTINCT col) / COUNT(*)。查询优化器发现某个值出现在表的数据行中的百分比很高的时候，它一般会忽略索引，进行全表扫描，惯用的百分比界线是“30%”，extended explain加上你的SQL，然后通过show warnings可以查看实际执行的语句。要关注下面这些：extra字段要特别注意

索引

建立索引

索引的基数相对于数据表行数较高，工作效果最好。说明列中不同值较多，区分度的公式是 COUNT(DISTINCT col) / COUNT(*)。查询优化器发现某个值出现在表的数据行中的百分比很高的时候，它一般会忽略索引，进行全表扫描，惯用的百分比界线是“30%”，

索引失效

对索引列运算，运算包括（+、-、*、/、！、<>、%、like’%_’（%放在前面）；
类型错误，如字段类型为varchar，where条件用number；
对索引应用内部函数，这种情况下应该要建立基于函数的索引。例如 select * from template t where ROUND (t.logicdb_id) = 1，此时应该建ROUND (t.logicdb_id)为索引，MySQL8.0开始支持函数索引，5.7可以通过虚拟列的方式来支持，之前只能新建一个ROUND (t.logicdb_id)列然后去维护；
如果条件有or，即使其中有条件带索引也不会使用（建议少使用or），如果想使用or，又想索引有效，只能将or条件中的每个列加上索引；
如果列类型是字符串，那一定要在条件中数据使用引号，否则不使用索引；
组合索引遵循最左原则。
B-tree索引 is null不会走，is not null会走，位图索引 is null，is not null 都会走；？？？

性能分析

extended explain加上你的SQL，然后通过show warnings可以查看实际执行的语句。要关注下面这些：

type列 ，连接类型。一个好的 SQL 语句至少要达到range级别。杜绝出现all级别。
key列， 使用到的索引名。如果没有选择索引，值是NULL。可以采取强制索引方式。
key_len列， 索引长度。
rows列， 扫描行数。该值是个预估值。
extra列， 详细说明。注意，常见的不太友好的值，如下：Using filesort，Using temporary。

extra字段要特别注意

using index： 需要查询的数据在索引上都可以查到，说明索引很成功；
using index condition： 5.6版本开始当ICP打开时，如果部分where条件能使用索引的字段，MySQL Server会把这部分下推到引擎层，可以利用index过滤的where条件在存储引擎层进行数据过滤；
index merge： 对多个索引分别进行条件扫描，然后将它们各自的结果进行合并(intersect/union)。一般用OR会用到。
using filesort： 说明对数据使用一个外部的索引排序，而不是按照表内的索引顺序进行读取，要特别注意有性能问题；因为group by是先排序再分组，如果没有排序的需要，可以加上一个order by NULL来避免排序从而避免出现using filesort；
using temporary： 使用了临时表保存中间结果，常见于排序order by和分组查询group by，要特别注意有性能问题；
impossible where： WHERE子句的值总是false，不能用来获取任何元组；
select tables optimized away： 在没有GROUP BY子句的情况下基于索引优化MIN/MAX操作或者对于MyISAM存储引擎优化COUNT(*)操作，不必等到执行阶段再进行计算，查询执行计划生成的阶段即完成优化；
distinct： 优化distinct操作，在找到第一匹配的元组后即停止找同样值的操作。

type字段

system： 表只有一行记录（等于系统表），这是const类型的特例，平时不会出现；
const： 如果通过索引依次就找到了，const用于比较主键索引或者unique索引。因为只能匹配一行数据，所以很快。如果将主键置于where列表中，MySQL就能将该查询转换为一个常量；
eq_ref： 唯一性索引扫描，对于每个索引键，表中只有一条记录与之匹配。常见于主键或唯一索引扫描；
ref： 非唯一性索引扫描，返回匹配某个单独值的所有行。本质上也是一种索引访问，它返回所有匹配某个单独值的行，然而它可能会找到多个符合条件的行，所以它应该属于查找和扫描的混合体；
range： 只检索给定范围的行，使用一个索引来选择行。key列显示使用了哪个索引，一般为where语句中出现between、<、>、in等的查询，这种范围扫描索引比全表扫描要好；
index： Full Index Scan ，index与ALL的区别为index类型只遍历索引树，这通常比ALL快，因为索引文件通常比数据文件小，也就是说虽然ALL和index都是读全表，但index是从索引中读取的，而ALL是从硬盘读取的；
all： Full Table Scan，遍历全表获得匹配的行。

字符与编码

CHARACTER_LENGTH（同CHAR_LENGTH）函数返回的是字符数，LENGTH函数返回的是字节数，一个汉字三个字节。MySQL的utf8最大是3个字节不支持emoji表情符号，必须只用utf8mb4。需要在 MySQL 配置文件中配置客户端字符集为utf8mb4。不过JDBC的连接串不支持配置characterEncoding=utf8mb4，最好的办法是在连接池中指定初始化SQL，例如：hikari连接池，其他连接池类似spring . datasource . hikari . connection – init – sql =set names utf8mb4。否则需要每次执行SQL前都先执行set names utf8mb4。

字符排序

tf8_genera_ci不区分大小写；
utf8_bin将字符串中的每一个字符用二进制数据存储，区分大小写。

常用语句

非常常用的sql语句：

如果有主键或者唯一键冲突则不插入： insert ignore into
如果有主键或者唯一键冲突则更新，注意这个会影响自增的增量： INSERT INTO room_remarks(room_id,room_remarks)VALUE(1,”sdf”) ON DUPLICATE KEY UPDATE room_remarks = “234”
如果有就用新的替代， values 如果不包含自增列，自增列的值会变化： REPLACE INTO room_remarks(room_id,room_remarks) VALUE(1,”sdf”)
备份表： CREATE TABLE user_info SELECT * FROM user_info
复制表结构： CREATE TABLE user_v2 LIKE user
从查询语句中导入： INSERT INTO user_v2 SELECT * FROM user或者INSERT INTO user_v2(id,num) SELECT id,num FROM user
连表更新： UPDATE user a, room b SET a.num=a.num+1 WHERE a.room_id=b.id
连表删除： DELETE user FROM user,black WHERE user.id=black.id
强制使用某个索引： select * from table force index(idx_user) limit 2;
禁止使用某个索引： select * from table ignore index(idx_user) limit 2;
禁用缓存(在测试时去除缓存的影响)： select SQL_NO_CACHE from table limit 2;
查看字符集： SHOW VARIABLES LIKE ‘character_set%’;
查看排序规则： SHOW VARIABLES LIKE ‘collation%’;

特别可以注意的优化方法：

where语句的解析顺序是从右到左，条件尽量放where不要放having；
采用延迟关联(deferred join)技术优化超多分页场景，比如limit 10000,10,延迟关联可以避免回表；
distinct语句非常损耗性能，可以通过group by来优化；
连表尽量不要超过三个表。
如果有自增列，truncate语句会把自增列的基数重置为0，有些场景用自增列作为业务上的ID需要十分重视；
聚合函数会自动滤空，比如a列的类型是int且全部是NULL，则SUM(a)返回的是NULL而不是0；
MySQL判断null相等不能用“a=null”，这个结果永远为UnKnown，where和having中，UnKnown永远被视为false，check约束中，UnKnown就会视为true来处理。所以要用“is null”或“is not null”处理。避免在where子句中对字段进行null值判断。
MySQL对于in做了相应的优化，即将in中的常量全部存储在一个数组里面，而且这个数组是排好序的。但是如果数值较多，产生的消耗也是比较大的。再例如：select id from t where num in(1,2,3) 对于连续的数值，能用between就不要用in了；再或者使用连接来替换。
SELECT * 增加很多不必要的消耗（CPU、IO、内存、网络带宽）；增加了使用覆盖索引的可能性；要求直接在select后面接上字段名。
当只需要一条数据的时候，使用limit 1
or两边的字段中，如果有一个不是索引字段，而其他条件也不是索引字段，会造成该查询不走索引的情况。很多时候使用union all或者是union（必要的时候）的方式来代替“or”会得到更好的效果。
尽量用union all代替union，union和union all的差异主要是前者需要将结果集合并后再进行唯一性过滤操作，这就会涉及到排序，增加大量的CPU运算，加大资源消耗及延迟。当然，union all的前提条件是两个结果集没有重复数据。
区分in和exists主要是造成了驱动顺序的改变（这是性能变化的关键），如果是exists，那么以外层表为驱动表，先被访问，如果是in，那么先执行子查询。所以in适合于外表大而内表小的情况；exists适合于外表小而内表大的情况。推荐使用not exists取代not in，例如使用select colname … from A表 Left join B表 on where a.id = b.id where b.id is null 取代 select colname … from A表 where a.id not in (select b.id from B表)

在线更新表结构，一般都采用pt工具( Percona Toolkit)。如果线上请求超时，应该去关注下慢查询日志：先找到慢查询日志文件的位置，然后利用mysqldumpslow去分析。主要用到的是参数如下：

-t：限制输出的行数，一般取前十条就够了；
-s：根据什么来排序默认是平均查询时间at，我还经常用到c查询次数，因为查询次数很频繁但是时间不高也是有必要优化的，还有t查询时间，查看那个语句特别卡；
-v：输出详细信息。

例子：mysqldumpslow -v -s t -t 10 mysql_slow.log.2018-11-20-0500

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

自流量生活

斯科特·福克斯（Scott Fox） / 王晶晶 / 中信出版社 / 2018-8-1

一位远嫁他国的平凡女孩，陌生的环境、陌生的语言……她不得不从头学起。有写作爱好的她在网络上记录着她学习生活中的小故事。神奇的是，越来越多的人联系她，有人要付钱看新的故事，还有人想把这些故事拍成电视短片。她是怎么做到的？这本书将告诉你如何利用互联网打造自己的“流量”生活，使你既能获取收入，又能以自己喜欢的方式过一生。在阅读这本书的过程中，你可能会找到自己喜欢的生活方式，了解成功打造自身“流量......一起来看看《自流量生活》这本书的介绍吧!

码农工具