当前位置：首页 > news >正文

四川住房和城乡建设厅官方网站免费网站的手机版本源码模板

news 2025/10/10 2:24:49

四川住房和城乡建设厅官方网站,免费网站的手机版本源码模板,化妆品网站开发可行性,php网页转wordpress都有哪些维度可以进行数据库调优?简言之: 索引失效、没有充分利用到索引——索引建立关联查询太多JOIN (设计缺陷或不得已的需求)——SQL优化服务器调优及各个参数设置(缓冲、线程数等)———调整my.cnf。数据过多――分库分表关于数据库调优的知识点非常分散。不同的DBMS不同的公司不同的职位不同的项目遇到的问题都不尽相同。这里我们分为三个章节进行细致讲解。虽然SQL查询优化的技术有很多但是大方向上完全可以分成物理查询优化和逻辑查询优化两大块。物理查询优化是通过索引和表连接方式等技术来进行优化这里重点需要掌握索引的使用。逻辑查询优化就是通过SQL等价变换提升查询效率直白一点就是说换一种查询写法执行效率可能更高。 1. 数据准备学员表插 50万条班级表插 1万条。步骤1建表 CREATE TABLE class ( id INT(11) NOT NULL AUTO_INCREMENT, className VARCHAR(30) DEFAULT NULL, address VARCHAR(40) DEFAULT NULL, monitor INT NULL , PRIMARY KEY (id) ) ENGINEINNODB AUTO_INCREMENT1 DEFAULT CHARSETutf8;CREATE TABLE student ( id INT(11) NOT NULL AUTO_INCREMENT, stuno INT NOT NULL , name VARCHAR(20) DEFAULT NULL, age INT(3) DEFAULT NULL, classId INT(11) DEFAULT NULL, PRIMARY KEY (id) #CONSTRAINT fk_class_id FOREIGN KEY (classId) REFERENCES t_class (id) ) ENGINEINNODB AUTO_INCREMENT1 DEFAULT CHARSETutf8;步骤2设置参数命令开启允许创建函数设置 : set global log_bin_trust_function_creators1; # 不加global只是当前窗口有效。步骤3创建函数保证每条数据都不同 #随机产生字符串 DELIMITER // CREATE FUNCTION rand_string(n INT) RETURNS VARCHAR(255) BEGIN DECLARE chars_str VARCHAR(100) DEFAULT abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ; DECLARE return_str VARCHAR(255) DEFAULT ; DECLARE i INT DEFAULT 0; WHILE i n DO SET return_str CONCAT(return_str,SUBSTRING(chars_str,FLOOR(1RAND()*52),1)); SET i i 1; END WHILE; RETURN return_str; END // DELIMITER ; #假如要删除 #drop function rand_string;随机产生班级编号 #用于随机产生多少到多少的编号 DELIMITER // CREATE FUNCTION rand_num (from_num INT ,to_num INT) RETURNS INT(11) BEGIN DECLARE i INT DEFAULT 0; SET i FLOOR(from_num RAND()*(to_num - from_num1)) ; RETURN i; END // DELIMITER ;#假如要删除 #drop function rand_num;步骤4创建存储过程 #创建往stu表中插入数据的存储过程 DELIMITER // CREATE PROCEDURE insert_stu( START INT , max_num INT ) BEGIN DECLARE i INT DEFAULT 0; SET autocommit 0; #设置手动提交事务 REPEAT #循环 SET i i 1; #赋值 INSERT INTO student (stuno, name ,age ,classId ) VALUES ((STARTi),rand_string(6),rand_num(1,50),rand_num(1,1000)); UNTIL i max_num END REPEAT; COMMIT; #提交事务 END // DELIMITER ; #假如要删除 #drop PROCEDURE insert_stu;创建往class表中插入数据的存储过程 #执行存储过程往class表添加随机数据 DELIMITER // CREATE PROCEDURE insert_class( max_num INT ) BEGIN DECLARE i INT DEFAULT 0; SET autocommit 0; REPEAT SET i i 1; INSERT INTO class ( classname,address,monitor ) VALUES (rand_string(8),rand_string(10),rand_num(1,100000)); UNTIL i max_num END REPEAT; COMMIT; END // DELIMITER ; #假如要删除 #drop PROCEDURE insert_class;步骤5调用存储过程 #执行存储过程往class表添加1万条数据 CALL insert_class(10000);#执行存储过程往stu表添加50万条数据 CALL insert_stu(100000,500000); CALL insert_stu(600000,1000000);步骤6删除某表上的索引创建存储过程 DELIMITER // CREATE PROCEDURE proc_drop_index(dbname VARCHAR(200),tablename VARCHAR(200)) BEGINDECLARE done INT DEFAULT 0;DECLARE ct INT DEFAULT 0;DECLARE _index VARCHAR(200) DEFAULT ;DECLARE _cur CURSOR FOR SELECT index_name FROMinformation_schema.STATISTICS WHERE table_schemadbname AND table_nametablename ANDseq_in_index1 AND index_name PRIMARY ;#每个游标必须使用不同的declare continue handler for not found set done1来控制游标的结束DECLARE CONTINUE HANDLER FOR NOT FOUND set done2 ;#若没有数据返回,程序继续,并将变量done设为2OPEN _cur;FETCH _cur INTO _index;WHILE _index DOSET str CONCAT(drop index , _index , on , tablename );PREPARE sql_str FROM str ;EXECUTE sql_str;DEALLOCATE PREPARE sql_str;SET _index;FETCH _cur INTO _index;END WHILE;CLOSE _cur; END // DELIMITER ;执行存储过程 CALL proc_drop_index(dbname,tablename);2. 索引失效案例 MySQL中提高性能的一个最有效的方式是对数据表设计合理的索引。索引提供了高效访问数据的方法并且加快查询的速度因此索引对查询的速度有着至关重要的影响。使用索引可以快速地定位表中的某条记录从而提高数据库查询的速度提高数据库的性能。如果查询时没有使用索引查询语句就会扫描表中的所有记录。在数据量大的情况下这样查询的速度会很慢。大多数情况下都默认采用B树来构建索引。只是空间列类型的索引使用R-树并且MEMORY表还支持hash索引。其实用不用索引最终都是优化器说了算。优化器是基于什么的优化器?基于cost开销(CostBaseOptimizer)它不是基于规则(Rule-BasedOptimizer)也不是基于语义。怎么样开销小就怎么来。另外SQL语句是否使用索引跟数据库版本、数据量、数据选择度都有关系。开销不是基于时间 2.1 全值匹配我最爱意思是创建联合索引多个索引同时生效。系统中经常出现的sql语句如下: EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age30; EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age30 and classId4; EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age30 and classId4 AND name abcd;建立索引前执行:(关注执行时间) mysql SELECT SQL_NO_CACHE * FROM student WHERE age30 and classId4 AND name abcd ; Empty set1 warning ( 0.28 sec)建立索引 CREATE INDEX idx_age ON student(age ) ;CREATE INDEX idx_age_classid ON student( age , classId);CREATE INDEX idx_age_classid_name ON student( age , classId , name) ;建立索引后执行: mysql SELECT SQL_NO_CACHE * FROM student WHERE age30 and classId4 AND name abcd; Empty set,1 warning (0.01 sec)可以看到创建索引前的查询时间是0 .28秒创建索引后的查询时间是0.01秒索引帮助我们极大的提高了查询效率。 2.2 最佳左前缀法则在MySQL建立联合索引时会遵守最佳左前缀匹配原则即最左优先在检索数据时从联合索引的最左边开始匹配。举例1: EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age30 AND student.name abcd; # 走idx_age_classid_name 使用了Using index condition举例2: EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.classid1 AND student.name abcd ;# 没有索引匹配上。举例3:索引idx_age_classid_name还能否正常使用? EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE classid4 and student.age30 AND student.name abcd ;如果索引了多列要遵守最左前缀法则。指的是查询从索引的最左前列开始并且不跳过索引中的列。 mysq1 EXPLAIN SELECT SQL_NO_CACHE* FROM student WHERE student.age30 AND student.name abcd;**结论:**MySQL可以为多个字段创建索引一个索引可以包括16个字段。对于多列索引**过滤条件要使用索引必须按照索引建立时的顺序依次满足一旦跳过某个字段索引后面的字段都无法被使用。**如果查询条件中没有使用这些字段中第1个字段时多列(或联合索引不会被使用。拓展Alibaba《Java开发手册》索引文件具有 B-Tree 的最左前缀匹配特性如果左边的值未确定那么无法使用此索引。 2.3 主键插入顺序对于一个使用InnoDB存储引擎的表来说表中的数据实际上都是存储在聚簇索引的叶子节点的。而记录又是存储在数据页中的数据页和记录又是按照记录主键值从小到大的顺序进行排序所以如果我们插入的记录的主键值是依次增大的话那我们每插满一个数据页就换到下一个数据页继续插而如果我们插入的主键值忽大忽小的话就比较麻烦了假设某个数据页存储的记录已经满了它存储的主键值在1~100之间如果此时再插入一条主键值为 9 的记录那它插入的位置就如下图可这个数据页已经满了再插进来咋办呢我们需要把当前页面分裂成两个页面把本页中的一些记录移动到新创建的这个页中。页面分裂和记录移位意味着什么意味着性能损耗所以如果我们想尽量避免这样无谓的性能损耗最好让插入的记录的主键值依次递增这样就不会发生这样的性能损耗了。所以我们建议让主键具有 AUTO_INCREMENT 让存储引擎自己为表生成主键而不是我们手动插入比如 person_info 表 CREATE TABLE person_info(id INT UNSIGNED NOT NULL AUTO_INCREMENT,name VARCHAR(100) NOT NULL,birthday DATE NOT NULL,phone_number CHAR(11) NOT NULL,country varchar(100) NOT NULL,PRIMARY KEY (id),KEY idx_name_birthday_phone_number (name(10), birthday, phone_number) );我们自定义的主键列 id 拥有 AUTO_INCREMENT 属性在插入记录时存储引擎会自动为我们填入自增的主键值。这样的主键占用空间小顺序写入减少页分裂。 2.4 计算、函数、类型转换(自动或手动)导致索引失效 1.这两条sql哪种写法更好 EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name LIKE abc%;EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE LEFT(student.name,3) abc; # 这个索引失效。因为用上函数了。2.创建索引 CREATE INDEX idx_sno ON student (stuno) ;3.第一种索引优化生效 mysql EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name LIKE abc%;mysql SELECT SQL_NO_CACHE * FROM student WHERE student.name LIKE abc%; ----------------------------------------- | id | stuno | name | age | classId | ----------------------------------------- | 5301379 | 1233401 | AbCHEa | 164 | 259 | | 7170042 | 3102064 | ABcHeB | 199 | 161 | | 1901614 | 1833636 | ABcHeC | 226 | 275 | | 5195021 | 1127043 | abchEC | 486 | 72 | | 4047089 | 3810031 | AbCHFd | 268 | 210 | | 4917074 | 849096 | ABcHfD | 264 | 442 | | 1540859 | 141979 | abchFF | 119 | 140 | | 5121801 | 1053823 | AbCHFg | 412 | 327 | | 2441254 | 2373276 | abchFJ | 170 | 362 | | 7039146 | 2971168 | ABcHgI | 502 | 465 | | 1636826 | 1580286 | ABcHgK | 71 | 262 | | 374344 | 474345 | abchHL | 367 | 212 | | 1596534 | 169191 | AbCHHl | 102 | 146 | ... | 5266837 | 1198859 | abclXe | 292 | 298 | | 8126968 | 4058990 | aBClxE | 316 | 150 | | 4298305 | 399962 | AbCLXF | 72 | 423 | | 5813628 | 1745650 | aBClxF | 356 | 323 | | 6980448 | 2912470 | AbCLXF | 107 | 78 | | 7881979 | 3814001 | AbCLXF | 89 | 497 | | 4955576 | 887598 | ABcLxg | 121 | 385 | | 3653460 | 3585482 | AbCLXJ | 130 | 174 | | 1231990 | 1283439 | AbCLYH | 189 | 429 | | 6110615 | 2042637 | ABcLyh | 157 | 40 | ----------------------------------------- 401 rows in set, 1 warning (0.01 sec)第二种索引优化失效 mysql EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE LEFT(student.name,3) abc;mysql SELECT SQL_NO_CACHE * FROM student WHERE LEFT(student.name,3) abc; ----------------------------------------- | id | stuno | name | age | classId | ----------------------------------------- | 5301379 | 1233401 | AbCHEa | 164 | 259 | | 7170042 | 3102064 | ABcHeB | 199 | 161 | | 1901614 | 1833636 | ABcHeC | 226 | 275 | | 5195021 | 1127043 | abchEC | 486 | 72 | | 4047089 | 3810031 | AbCHFd | 268 | 210 | | 4917074 | 849096 | ABcHfD | 264 | 442 | | 1540859 | 141979 | abchFF | 119 | 140 | | 5121801 | 1053823 | AbCHFg | 412 | 327 | | 2441254 | 2373276 | abchFJ | 170 | 362 | | 7039146 | 2971168 | ABcHgI | 502 | 465 | | 1636826 | 1580286 | ABcHgK | 71 | 262 | | 374344 | 474345 | abchHL | 367 | 212 | | 1596534 | 169191 | AbCHHl | 102 | 146 | ... | 5266837 | 1198859 | abclXe | 292 | 298 | | 8126968 | 4058990 | aBClxE | 316 | 150 | | 4298305 | 399962 | AbCLXF | 72 | 423 | | 5813628 | 1745650 | aBClxF | 356 | 323 | | 6980448 | 2912470 | AbCLXF | 107 | 78 | | 7881979 | 3814001 | AbCLXF | 89 | 497 | | 4955576 | 887598 | ABcLxg | 121 | 385 | | 3653460 | 3585482 | AbCLXJ | 130 | 174 | | 1231990 | 1283439 | AbCLYH | 189 | 429 | | 6110615 | 2042637 | ABcLyh | 157 | 40 | ----------------------------------------- 401 rows in set, 1 warning (3.62 sec)type为“ALL”表示没有使用到索引查询时间为 3.62 秒查询效率较之前低很多。再举例 student表的字段stuno上设置有索引 CREATE INDEX idx_sno ON student(stuno);EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno1 900001; # 计算导致索引失效运行结果类型是ALL原因是计算导致了索引失效。索引优化生效(没有计算) EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno 900000;再举例 student表的字段name上设置有索引 CREATE INDEX idx_name ON student (name) ; # 上面已经运行过了索引失效 EXPLAIN SELECT id,stuno,name FROM student WHERE SUBSTRING( name,1,3)abc; ## 使用函数导致失效可以改用like abc%2.5 类型转换导致索引失效下列哪个sql语句可以用到索引。假设name字段上设置有索引 # 未使用到索引 EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE name123; # name123发生类型转换索引失效# 使用到索引 EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE name123;# 使用到索引2.6 范围条件右边的列索引失效 ALTER TABLE student DROP INDEX idx_name; ALTER TABLE student DROP INDEX idx_age; ALTER TABLE student DROP INDEX idx_age_classid;show index from student;EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age30 AND student.classId20 AND student.name abc ;因为用上了范围查找在范围查找的索引后面的索引就失效了。 tips 因为范围条件导致的索引失效可以考虑把确定的索引放在前面。例如上面这个例子 create index idx_age_name_cid on student(age, name, classId);这里name 放在了范围查找 classId前面。。索引就能生效了。哪些属于范围大于等于大于小于等于小于between 应用开发中范围查询例如金额查询日期查询往往都是范围查询。创建联合索引时考虑放在后面。 2.7 不等于(! 或者)索引失效为name字段创建索引 CREATE INDEX idx_name ON student(NAME);查看索引是否失效 EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name !abc;没救索引只能查到知道的东西 2.8 is null可以使用索引is not null无法使用索引 EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NULL;# is not null 索引失效 EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NOT NULL;结论:最好在设计数据表的时候就将字段设置为 NOT NULL 约束比如你可以将INT类型的字段默认值设置为0。将字符类型的默认值设置为空字符串。拓展: 同理在查询中使用not like 也无法使用索引导致全表扫描。 2.9 like以通配符%开头索引失效在使用LIKE关键字进行查询的查询语句中如果匹配字符串的第一个字符为“%”索引就不会起作用。只有“%不在第一个位置索引才会起作用。拓展Alibaba《Java开发手册》【强制】页面搜索严禁左模糊或者全模糊如果需要请走搜索引擎来解决。 2.10 OR 前后存在非索引的列索引失效在WHERE子句中如果在OR前的条件列进行了索引而在OR后的条件列没有进行索引那么索引会失效。也就是说OR前后的两个条件中的列都是索引时查询中才使用索引。因为OR的含义就是两个只要满足一个即可因此只有一个条伴列进行了索引是没有意义的只要有条件列没有进行索引就会进行全表扫描因此索引的条件列也会失效。 2.11 数据库和表的字符集统一使用utf8mb4 统一使用utf8mb4( 5.5.3版本以上支持)兼容性更好统一字符集可以避免由于字符集转换产生的乱码。不同的字符集进行比较前需要进行转换会造成索引失效。 2.12练习及一般性建议练习:假设:index(a,b,c) 一般性建议: 对于单列索引,尽量选择针对当前query过滤性更好的索引在选择组合索引的时候当前query中过滤性最好的字段在索引字段顺序中位置越靠前越好。。在选择组合索引的时候尽量选择能够包含当前query中的where子句中更多字段的索引。在选择组合索引的时候如果某个字段可能出现范围查询时尽量把这个字段放在索引次序的最后面。总之书写SQL语句时尽量避免造成索引失效的情况。 3. 关联查询优化 3.1 数据准备 #分类 CREATE TABLE IF NOT EXISTS type( id INT(10) UNSIGNED NOT NULL AUTO_INCREMENT, card INT(10) UNSIGNED NOT NULL, PRIMARY KEY ( id ) );#图书 CREATE TABLE IF NOT EXISTS book(bookid INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,cardINT(10) UNSIGNED NOT NULL,PRIMARY KEY (bookid) ); #向分类表中添加20条记录 INSERT INTO type (card) VALUES (FLOOR(1 (RAND() * 20)));#向图书表中添加20条记录 INSERT INTO book(card) VALUES (FLOOR(1 (RAND() * 20)) ); 3.2 采用左外连接下面开始 EXPLAIN 分析 EXPLAIN SELECT SQL_NO_CACHE * FROM type LEFT JOIN book ON type.card book.card;结论type 有All 添加索引优化 # 添加索引 ALTER TABLE book ADD INDEX Y(card); #【被驱动表】可以避免全表扫描EXPLAIN SELECT SQL_NO_CACHE * FROM type LEFT JOIN book ON type.card book.card;可以看到第二行的 type 变为了 refrows 也变成了优化比较明显。这是由左连接特性决定的。LEFT JOIN条件用于确定如何从右表搜索行左边一定都有所以右边是我们的关键点,一定需要建立索引。如果只能添加一边的索引那就给被驱动表添加上索引。 ALTER TABLE type ADD INDEX X (card); #【驱动表】无法避免全表扫描EXPLAIN SELECT SQL_NO_CACHE * FROM type LEFT JOIN book ON type.card book.card;接着 DROP INDEX Y ON book; EXPLAIN SELECT SQL_NO_CACHE * FROM type LEFT JOIN book ON type.card book.card;去掉被驱动索引又变成了 join buffer 3.3 采用内连接前置知识 drop index X on type; drop index Y on book;#如果已经删除了可以不用再执行该操作换成 inner joinMySQL自动选择驱动表 EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.cardbook.card;添加索引优化 ALTER TABLE book ADD INDEX Y (card);EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.cardbook.card;# type 加索引 ALTER TABLE type ADD INDEX X (card); # 观察执行情况 EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.cardbook.card;这里刚给type加了索引后驱动表和被驱动表还是原来的样子。给type 继续加了一些数据后优化器会判断哪个数据比较少。就作为驱动表结论内连接主被驱动表是由优化器决定的。优化器认为哪个成本比较小就采用哪种作为驱动表。如果两张表只有一个有索引那有索引的表作为被驱动表。原因驱动表要全查出来。有没有索引你都得全查出来。两个索引都存在的情况下数据量大的作为被驱动表小表驱动大表原因驱动表要全部查出来而大表可以通过索引加快查找 3.4 join语句原理 join方式连接多个表本质就是各个表之间数据的循环匹配。MySQL5.5版本之后MySQL只支持一种表间关联方式就是嵌套循环(Nested Loop Join)。如果关联表的数据量很大则join关联的执行时间会非常长。在MySQL5.5以后的版本中MySQL通过引入BNLJ算法来优化嵌套执行。 1.驱动表和被驱动表驱动表就是主表被驱动表就是从表、非驱动表。对于内连接来说: SELECT * FROM A JOIN B ON ...A一定是驱动表吗?不一定优化器会根据你查询语句做优化决定先查哪张表。先查询的那张表就是驱动表反之就是被驱动表。通过explain关键字可以查看。对于外连接来说: SELECT * FROM A LEFT JOIN B ON ... #或 SELECT *FROM B RIGHT JOIN A ON ...通常大家会认为A就是驱动表B就是被驱动表。但也未必。测试如下: CREATE TABLE a(f1 INT,f2 INT,INDEX(f1))ENGINEINNODB;CREATE TABLE b(f1 INT,f2 INT)ENGINEINNODB;INSERT INTO a VALUES(1,1),(2,2),(3,3),(4,4),(5,5),(6,6);INSERT INTO b VALUES (3,3),(4,4),(5,5),(6,6),(7,7),(8,8);#测试1 EXPLAIN SELECT* FROM a LEFT JOIN b ON (a.f1b.f1)WHERE (a.f2b.f2);#测试2 EXPLAIN SELECT * FROM a LEFT JOIN b oN (a.f1b.f1) AND (a.f2b.f2); 测试1结果得出这种结论太不可思议了跟上一个show warnings 看看测试2结果继续show warnings \G 2.Simple Nested-Loop Join(简单嵌套循环连接) 算法相当简单从表A中取出一条数据1遍历表B将匹配到的数据放到result…以此类推驱动表A中的每一条记录与被驱动表B的记录进行判断: 这个例子是在没有索引的情况做了全表扫描可以看到这种方式效率是非常低的以上述表A数据100条表B数据1000条计算则A*B10万次。开销统计如下: 当然mysql肯定不会这么粗暴的去进行表的连接所以就出现了后面的两种对Nested-Loop Join优化算法。 3.Index Nested-Loop Join(索引嵌套循环连接) Index Nested-Loop Join其优化的思路主要是为了减少内层表数据的匹配次数所以要求被驱动表上必须有索引才行。通过外层表匹配条件直接与内层表索引进行匹配避免和内层表的每条记录去进行比较这样极大的减少了对内层表的匹配次数。驱动表中的每条记录通过被驱动表的索引进行访问因为索引查询的成本是比较固定的故mysql优化器都倾向于使用记录数少的表作为驱动表(外表)。如果被驱动表加索引效率是非常高的但如果索引不是主键索引所以还得进行一次回表查询。相比被驱动表的索引是主键索引效率会更高。 4.Block Nested-Loop Join(块嵌套循环连接) 如果存在索引那么会使用index的方式进行join如果join的列没有索引被驱动表要扫描的次数太多了。每次访问被驱动表其表中的记录都会被加载到内存中然后再从驱动表中取一条与其匹配匹配结束后清除内存然后再从驱动表中加载一条记录然后把被驱动表的记录在加载到内存匹配这样周而复始大大增加了IO的次数。为了减少被驱动表的IO次数就出现了Block Nested-Loop Join的方式。不再是逐条获取驱动表的数据而是一块一块的获取引入了join buffer缓冲区将驱动表join相关的部分数据列(大小受join buffer的限制)缓存到join buffer中然后全表扫描被驱动表的每—条记录—次性和join buffer中的所有驱动表记录进行匹配内存中操作)将简单嵌套循环中的多次比较合并成一次降低了被驱动表的访问频率。注意: 这里缓存的不只是关联表的列, select后面的列也会缓存起来。存的是驱动表在一个有N个join关联的sql中会分配N-1个join buffer。所以查询的时候尽量减少不必要的字段可以让join buffer中存放更多的列。参数设置 block_nested_loop 通过show variables like %optimizer_switch%查看block_nested_loop状态。默认是开启的。. - - join_buffer_size 驱动表能不能一次加载完要看join buffer能不能存储所有的数据默认情况下join_buffer_size256k。 mysql show variables like %join_buffer%; -------------------------- | Variable_name | Value | -------------------------- | join_buffer_size | 262144 | -------------------------- 1 row in set (0.00 sec)join_buffer_size的最大值在32位系统可以申请4G而在64位操做系统下可以申请大于4G的Join Buffer空间(64位Windows除外其最大值会被截断为4GB并发出警告)。 5.Join小结 1、整体效率比较:INLJ BNLJ SNLJ 2、永远用小结果集驱动大结果集(其本质就是减少外层循环的数据数量)(小的度量单位指的是表行数*每行大小) # straight_join 不然优化器优化谁是驱动表驱动表 straight_join 被驱动表 # 这个例子是说t2 的列比较多相同的join buffer 加的会比较少。所以不适合用t2 作为驱动表 select t1.b,t2.* from t1 straight_join t2 on (t1.bt2.b) where t2.id180;#推荐select t1.b,t2.* from t2 straight_join t1 on (t1.bt2.b) where t2.id100;#不推荐3、为被驱动表匹配的条件增加索引(减少内层表的循环匹配次数) 4、增大join buffer size的大小(一次缓存的数据越多那么内层包的扫表次数就越少) 5、减少驱动表不必要的字段查询字段越少join buffer 所缓存的数据就越多) 6、在决定哪个表做驱动表的时候应该是两个表按照各自的条件过滤过滤完成之后计算参与join的各个字段的总数据量数据量小的那个表就是“小表”应该作为驱动表。 3.5 小结保证被驱动表的JOIN字段已经创建了索引需要JOIN 的字段数据类型保持绝对一致。LEFT JOIN 时选择小表作为驱动表大表作为被驱动表。减少外层循环的次数。INNER JOIN 时MySQL会自动将小结果集的表选为驱动表。选择相信MySQL优化策略。能够直接多表关联的尽量直接关联不用子查询。(减少查询的趟数)不建议使用子查询建议将子查询SQL拆开结合程序多次查询或使用 JOIN 来代替子查询。衍生表建不了索引 3.5.Hash Join 从MySQL的8.0.20版本开始将废弃BNLJ因为从MySQL8.0.18版本开始就加入了hash join默认都会使用hash join Nested Loop: 对于被连接的数据子集较小的情况Nested Loop是个较好的选择。 Hash Join是做大数据集连接时的常用方式优化器使用两个表中较小(相对较小)的表利用Join Key在内存中建立散列表然后扫描较大的表并探测散列表找出与Hash表匹配的行。这种方式适用于较小的表完全可以放于内存中的情况这样总成本就是访问两个表的成本之和。在表很大的情况下并不能完全放入内存这时优化器会将它分割成若干不同的分区不能放入内存的部分就把该分区写入磁盘的临时段此时要求有较大的临时段从而尽量提高I/O的性能。它能够很好的工作于没有索引的大表和并行查询的环境中并提供最好的性能。大多数人都说它是Join的重型升降机。Hash Join只能应用于等值连接(如WHERE A.COL1B.COL2)这是由Hash的特点决定的。 4.子查询优化 MySQL从4.1版本开始支持子查询使用子查询可以进行SELECT语句的嵌套查询即一个SELECT查询的结果作为另一个SELECT语句的条件。子查询可以一次性完成很多逻辑上需要多个步骤才能完成的SQL操作。 **子查询是MySQL的一项重要的功能可以帮助我们通过一个SQL语句实现比较复杂的查询。但是子查询的执行效率不高。**原因: ①执行子查询时MySQL需要为内层查询语句的查询结果建立一个临时表然后外层查询语句从临时表中查询记录。查询完毕后再撤销这些临时表。这样会消耗过多的CPU和IO资源产生大量的慢查询。 ②子查询的结果集存储的临时表不论是内存临时表还是磁盘临时表都不会存在索引所以查询性能会受到一定的影响。 ③对于返回结果集比较大的子查询其对查询性能的影响也就越大。在MySQL中可以使用连接JOIN查询来替代子查询。连接查询不需要建立临时表其速度比子查询要快如果查询中使用索引的话性能就会更好。举例1:查询学生表中是班长的学生信息使用子查询 #创建班级表中班长的索引 CREATE INDEX idx_monitor ON class ( monitor ) ; EXPLAIN SELECT *FROM student stu1 WHERE stu1.stuno IN( SELECT monitor FROM class c WHERE monitor IS NOT NULL);推荐:使用多表查询 EXPLAIN SELECT stu1.* FROM student stu1 JOIN class c ON stu1.stuno c.monitor WHERE c.monitor IS NOT NULL;举例2:取所有不为班长的同学·不推荐子查询 EXPLAIN SELECT SQL_NO_CACHE a.* FROM student a WHERE a.stuno NOT IN ( SELECT monitor FROM class bWHERE monitor IS NOT NULL);修改成多表查询 EXPLAIN SELECT SQL_NO_CACHE a.* FROM student a LEFT OUTER JOIN class b ON a. stuno b.monitor WHERE b.monitor IS NULL;结论: 尽量不要使用NOT IN或者NOT EXISTS用LEFT JOIN Xxx ON xx WHERE xx IS NULL替代 5.排序优化 5.1排序优化问题: 在WHERE 条件字段上加索引但是为什么在ORDER BY字段上还要加索引呢? 回答: 在MySQL中支持两种排序方式分别是FileSort和Index排序。 Index排序中索引可以保证数据的有序性不需要再进行排序效率更高。FileSort排序则一般在内存中进行排序占用CPU较多。如果待排结果较大会产生临时文件I/O到磁盘进行排序的情况效率较低。优化建议: SQL中可以在WHERE子句和ORDER BY子句中使用索引目的是在WHERE子句中避免全表扫描在ORDER BY子句避免使用FileSort排序。当然某些情况下全表扫描或者FileSort排序不一定比索引慢。但总的来说我们还是要避免以提高查询效率。尽量使用Index完成ORDER BY排序。如果WHERE和ORDER BY后面是相同的列就使用单索引列;如果不同就使用联合索引。无法使用Index时需要对FileSort方式进行调优。 5.2测试删除student表和class表中已创建的索引。 #方式1: DROP INDEX idx_monitor ON class;DROP INDEX idx_cid ON student; DROP INDEX idx_age ON student;DROP INDEX idx_name ON student ; DROP INDEX idx_age_name_classid ON student ;DROP INDEX idx_age_classid_name ON student ;#方式2: call proc_drop_index( test , student );以下是否能使用到索引能否去掉using filesort 过程一: EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid;EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid limit 10;过程二: order by时不limit索引失效 #创建索引 CREATE INDEX idx_age_classid_name ON student (age,classid, NAME); #不限制,索引失效 EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age ,classid ;这里优化器觉得还需要回表。会费时间更大不走索引。使用覆盖索引试试看不用回表优化器觉得走索引快。就使用了索引。增加limit 条件增加limit 减少回表的数量优化器觉得走索引快会使用索引过程三: order by时顺序错误索引失效 CREATE INDEX idx_age_classid_stuno ON student (age,classid,stuno) ;#以下哪些索引失效?# 不会走最左前缀原则 EXPLAIN SELECT* FROM student ORDER BY classid LIMIT 10;# 不会走最左前缀原则 EXPLAIN SELECT* FROM student ORDER BY classid,NAME LIMIT 10;# 走 EXPLAIN SELECT* FROM student ORDER BY age,classid, stuno LIMIT 10; # 走 EXPLAIN SELECT *FROM student ORDER BY age,classid LIMIT 10; # 走 EXPLAIN SELECT * FROM student ORDER BY age LIMIT 10; 过程四: order by时规则不一致,索引失效顺序错不索引; 方向反不索引) # age desc 方向反索引失效 EXPLAIN SELECT * FROM student ORDER BY age DESC, classid ASC LIMIT 10;# 没有最左前缀索引失效 EXPLAIN SELECT * FROM student ORDER BY classid DESC, NAME DESC LIMIT 10;# age asc 没问题 classid desc 降序优化器认为文件排序比较快索引失效 # 方向反了不走索引 EXPLAIN SELECT * FROM student ORDER BY age ASC, classid DESC LIMIT 10;# Backward index scan 走索引了倒着走索引 EXPLAIN SELECT * FROM student ORDER BY age DESC, classid DESC LIMIT 10; 过程五:无过滤,不索引 EXPLAIN SELECT * FROM student WHERE age45 ORDER BY classid;EXPLAIN SELECT * FROM student WHERE age45 ORDER BY classid , name; EXPLAIN SELECT *FROM student WHERE classid45 order by age;EXPLAIN SELECT * FROM student WHERE classid45 order by age limit 10;这里第一条排序走Using filesort 很好理解第二条为啥不是 Using filesort 呢这里type indexkeyidx_age_classid_name 。这说明了优化器预估对idx_age_classid_name 索引进行完整的遍历。由于索引本身就是根据age升序存储的。。所以只要在遍历的过程中遇到前十个classid45。就可以停止遍历。回表返回数据。小结: INDEX a_b_c( a, b,c)order by 能使用索引最左前缀 - ORDER BY a - ORDER BY a, b - ORDER BY a , b, c - ORDER BY a DESC, b DESC,c DESC# 如果WHERE使用索引的最左前缀定义为常量则order by 能使用索引 - WHERE a const ORDER BY b, c - WHERE a const AND b const ORDER BY c - WHERE a const ORDER BY b, c - WHERE a const AND b const ORDER BY b , c# 不能使用索引进行排序 - ORDER BY a ASC, b DESC, c DESC/*排序不一致*/ - WHERE g const ORDER BY b,c/*丢失a索引*/ - WHERE a const ORDER BY c/*丢失b索引*/ - WHERE a const ORDER BY a, d /*d不是索引的一部分*/ - WHERE a in (...) ORDER BY b,c /*对于排序来说多个相等条件也是范围查询*/ 索引只会用到一个没办法一个索引用来where 一个索引用来 order by。但是可以建立联合索引。 5.3案例实战 ORDER BY子句尽量使用Index方式排序避免使用FileSort方式排序。执行案例前先清除student上的索引只留主键: DROP INDEX idx_age ON student; DROP INDEX idx_age_classid_stuno ON student;DROP INDEX idx_age_classid_name ON student; #或者 call proc_drop_index( test , student ) ;show index from student;场景:查询年龄为30岁的且学生编号小于101000的学生按用户名称排序 EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age 30 AND stuno 101000 ORDER BY NAME;mysql SELECT SQL_NO_CACHE * FROM student WHERE age 30 AND stuno 101000 ORDER BY NAME; ------------------------------------ | id | stuno | name | age | classId | ------------------------------------ | 417 | 100417 | bBAYtX | 30 | 159 |....| 372 | 100372 | xwODCc | 30 | 764 | ------------------------------------ 18 rows in set, 1 warning (0.17 sec)结论: type是ALL即最坏的情况。Extra里还出现了Using filsort,也是最坏的情况。优化是必须的。优化思路方案一:为了去掉filesort我们可以把索引建成 #创建新索引 CREATE INDEX idx_age_name ON student(age , NAME);EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age 30 AND stuno 101000 ORDER BY NAME;方案二:尽量让where的过滤条件和排序使用上索引 create index idx_age_stuno_name on student(age,stuno,name); EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age 30 AND stuno 101000 ORDER BY NAME;下面这个方案虽然使用了 Using filesort 但是速度反而更快了。原因: 所有的排序都是在条件过滤之后才执行的。所以如果条件过滤掉大部分数据的话剩下几百几千条数据进行排序其实并不是很消耗性能即使索引优化了排序但实际提升性能很有限。相对的stuno101000这个条件如果没有用到索引的话要对几万条的数据进行扫描这是非常消耗性能的所以索引放在这个字段上性价比最高是最优选择。结论: 1两个索引同时存在mysql自动选择最优的方案。(对于这个例子mysql选择idx_age_stuno_name)。但是随着数据量的变化选择的索引也会随之变化的。 2.当【范围条件】和【group by或者order by】的字段出现二选一时优先观察条件字段的过滤数量如果过滤的数据足够多而需要排序的数据并不多时优先把索引放在范围字段上。反之亦然。思考:这里我们使用如下索引是否可行? DROP INDEX idx_age_stuno_name ON student;# 当然可以了因为3个也只是用到了两个索引 CREATE INDEX idx_age_stuno ON student(age , stuno ) ;5.4 filesort算法:双路排序和单路排序排序的字段若如果不在索引列上则filesort会有两种算法: 双路排序和单路排序双路排序慢) MySQL 4.1之前是使用双路排序字面意思就是两次扫描磁盘最终得到数据读取行指针和order by列对他们进行排序然后扫描已经排序好的列表按照列表中的值重新从列表中读取对应的数据输出从磁盘取排序字段在buffer进行排序再从磁盘取其他字段。取一批数据要对磁盘进行两次扫描众所周知IO是很耗时的所以在mysql4.1之后出现了第二种改进的算法就是单路排序。单路排序快) 从磁盘读取查询需要的所有列按照order by列在sort_buffer(排序缓存) 缓冲区对他们进行排序但是它会使用更多的空间因为单路排序效率更快一些避免了第二次读取数据。并且把随机IO变成了顺序IO行都保存在内存中了。结论及引申出的问题由于单路是后出的总体而言好过双路但是用单路有问题在sort_buffer中单路比多路要多占用更多空间因为单路是把所有字段都取出所以有可能取出的数据的总大小超出了sort_buffer的容量导致每次只能取sort_buffer容量大小的数据进行排序创建tmp文件多路合并)排完再取sort_buffer容量大小再排…从而多次I/O。单路本来想省一次I/O操作反而导致了大量的I/O操作反而得不偿失。优化策略 1.尝试提高sort_buffer_size 不管用哪种算法提高这个参数都会提高效率要根据系统的能力去提高因为这个参数是针对每个进程 (connection)的1M-8M之间调整。MySQL5.7InnoDB存储引擎默认值是1048576字节1MB。 mysql SHOW VARIABLES LIKE %sort_buffer_size%; ---------------------------------- | Variable_name | Value | ---------------------------------- | innodb_sort_buffer_size | 1048576 | | myisam_sort_buffer_size | 8388608 | | sort_buffer_size | 262144 | ---------------------------------- 3 rows in set (0.00 sec)2.尝试提高max_length_for_sort_data 提高这个参数会增加改进算法的概率。 mysql SHow VARIABLES LIKE %max_length_for_sort_data%; --------------------------------- | Variable_name | Value | --------------------------------- | max_length_for_sort_data | 4096 | --------------------------------- 1 row in set (0.00 sec)但是如果设的太高数据总容量超出sort_buffer_size的概率就增大明显症状是高的磁盘I/O活动和低的处理器使用率。如果需要返回的列的总长度大于max_length_for_sort_data使用双路算法否则使用单路算法。1024-8192字节之间调整。 **3.Order by时select*是一个大忌。最好只Query需要的字段。**原因: 当Query的字段大小总和小于max_length_for_sort_data而且排序字段不是TEXT|BLOB类型时会用改进后的算法――单路排序否则用老算法――多路排序。两种算法的数据都有可能超出sort_buffer_size的容量超出之后会创建tmp文件进行合并排序导致多次I/O但是用单路排序算法的风险会更大一些所以要提高sort_buffer_size。 6.GROUP BY优化 group by使用索引的原则几乎跟order by一致group by即使没有过滤条件用到索引也可以直接使用索引。.group by先排序再分组遵照索引建的最佳左前缀法则当无法使用索引列增大max_length_for_sort_data和sort_buffer_size参数的设置where效率高于having能写在where限定的条件就不要写在having中了减少使用order by和业务沟通能不排序就不排序或将排序放到程序端去做Order by、group by、distinct这些语句较为耗费CPU数据库的CPU资源是极其宝贵的。包含了order by、group by、distinct这些查询的语句where条件过滤出来的结果集请保持在1000行以内否则SQL会很慢。 7.优化分页查询一般分页查询时通过创建覆盖索引能够比较好地提高性能。一个常见又非常头疼的问题就是limit 2000000,10此时需要MySQL排序前2000010记录仅仅返回2000000 - 2000010的记录其他记录丢弃查询排序的代价非常大。 EXPLAIN SELECT * FROM student LIMIT 2088800,10; 优化思路一在索引上完成排序分页操作最后根据主键关联回原表查询所需要的其他列内容。 EXPLAIN SELECT * FROM student t, ( SELECT id FROM student ORDER BY id LIMIT 2000000,10) a WHERE t.id a.id;优化思路二(几乎没法用) 该方案适用于主键自增的表可以把Limit查询转换成某个位置的查询。 EXPLAIN SELECT * FROM student WHERE id 2080880 LIMIT 10;不靠谱生产中id可能会删除查询的条件也不可能这么简单。 8. 优先考虑覆盖索引 8.1 什么是覆盖索引理解方式一索引是高效找到行的一个方法但是一般数据库也能使用索引找到一个列的数据因此它不必读取整个行。毕竟索引叶子节点存储了它们索引的数据当能通过读取索引就可以得到想要的数据那就不需要读取行了。一个索引包含了满足查询结果的数据就叫做覆盖索引。 **理解方式二**非聚簇复合索引的一种形式它包括在查询里的SELECT、JOIN和WHERE子句用到的所有列即建索引的字段正好是覆盖查询条件中所涉及的字段。简单说就是索引列主键包含 SELECT 到 FROM之间查询的列。 **举例一:**覆盖索引长什么样子。索引列主键 #斯降之前的索引 DROP INDEX idx_age_stuno ON student ; CREATE INDEX idx_age_name ON student (age , NAME);EXPLAIN SELECT * FROM student WHERE age 20;EXPLAIN SELECT id, age , NAME FROM student WHERE age 28;上述都使用到了声明的索引下面的情况则不然在查询列中多了一列classid显示未使用到索引: EXPLAIN SELECT id, age , NAME,classid FROM student WHERE age 28;举例二 EXPLAIN SELECT *FROM student WHERE NAME LIKE %abc;CREATE INDEX idx_age_name ON student (age , NAME); EXPLAIN SELECT id, age ,NAME FROM student WHERE NAME LIKE %abc ;# 索引覆盖失效 EXPLAIN SELECT id, age ,NAME,classid FROM student WHERE NAME LIKE %abc ;查询多了classid结果是未使用到索引之前有说过不等于与左模糊会导致索引失效。但是这里为什么又用上了呢原因是优化器发现数据已经都在索引了。直接遍历索引就可以返回数据。。而遍历索引肯定是比遍历全表数据量少的。这样IO就可以更少。一切都是成本的考量。 8.2 覆盖索引的利弊好处 1. 避免Innodb表进行索引的二次查询回表 Innodb是以聚集索引的顺序来存储的对于Innodb来说二级索引在叶子节点中所保存的是行的主键信息如果是用二级索引查询数据在查找到相应的键值后还需通过主键进行二次查询才能获取我们真实所需要的数据。在覆盖索引中二级索引的键值中可以获取所要的数据避免了对主键的二次查询减少了IO操作提升了查询效率。 2. 可以把随机IO变成顺序IO加快查询效率由于覆盖索引是按键值的顺序存储的对于IO密集型的范围查找来说对比随机从磁盘读取每一行的数据IO要少的多因此利用覆盖索引在访问时也可以把磁盘的随机读取的IO转变成索引查找的顺序IO。 3.数据在索引里面数据量少更紧凑索引肯定是比原来的数据数据量少。。这样就可以减少IO。由于覆盖索引可以减少树的搜索次数显著提升查询性能所以使用覆盖索引是一个常用的性能优化手段。弊端索引字段的维护总是有代价的。因此在建立冗余索引来支持覆盖索引时就需要权衡考虑了。这是业务DBA或者称为业务数据架构师的工作。 9. 如何给字符串添加索引有一张教师表表定义如下 create table teacher( ID bigint unsigned primary key, email varchar(64), ... )engineinnodb;讲师要使用邮箱登录所以业务代码中一定会出现类似于这样的语句 mysql select col1, col2 from teacher where emailxxx; 如果email这个字段上没有索引那么这个语句就只能做全表扫描。 9.1 前缀索引 MySQL是支持前缀索引的。默认地如果你创建索引的语句不指定前缀长度那么索引就会包含整个字符串 mysql alter table teacher add index index1(email); #或 mysql alter table teacher add index index2(email(6))这两种不同的定义在数据结构和存储上有什么区别呢下图就是这两个索引的示意图以及如果使用的是index1即email整个字符串的索引结构执行顺序是这样的从index1索引树找到满足索引值是’ zhangssxyzxxx.com ’的这条记录取得ID2的值到主键上查到主键值是ID2的行判断email的值是正确的将这行记录加入结果集取index1索引树上刚刚查到的位置的下一条记录发现已经不满足email’ zhangssxyzxxx.com ’的条件了循环结束。这个过程中只需要回主键索引取一次数据所以系统认为只扫描了一行。如果使用的是index2即email(6)索引结构执行顺序是这样的从index2索引树找到满足索引值是’zhangs’的记录找到的第一个是ID1到主键上查到主键值是ID1的行判断出email的值不是’ zhangssxyzxxx.com ’这行记录丢弃取index2上刚刚查到的位置的下一条记录发现仍然是’zhangs’取出ID2再到ID索引上取整行然后判断这次值对了将这行记录加入结果集重复上一步直到在idxe2上取到的值不是’zhangs’时循环结束。也就是说使用**前缀索引定义好长度就可以做到既节省空间又不用额外增加太多的查询成本。**前面已经讲过区分度区分度越高越好。因为区分度越高意味着重复的键值越少。 9.2 前缀索引对覆盖索引的影响结论使用前缀索引就用不上覆盖索引对查询性能的优化了这也是你在选择是否使用前缀索引时需要考虑的一个因素。 10. 索引下推 10.1 使用前后对比 Index Condition Pushdown(ICP)是MySQL 5.6中新特性是一种在存储引擎层使用索引过滤数据的一种优化方式。如果没有ICP存储引擎会遍历索引以定位基表中的行并将它们返回给MySQL服务器由MySQL服务器评估WHERE后面的条件是否保留行。启用ICP后如果部分WHERE条件可以仅使用索引中的列进行筛选则MySQL服务器会把这部分WHERE条件放到存储引擎筛选。然后存储引擎通过使用索引条目来筛选数据并且只有在满足这一条件时才从表中读取行。好处: ICP可以减少存储引擎必须访问基表的次数和MySQL服务器必须访问存储引擎的次数。但是ICP的加速效果取决于在存储引擎内通过ICP筛选掉的数据的比例。例子 key1 有索引这里条件like ‘%a’ 其实可以在索引里面算出来哪些符合条件。。。。过滤出符合条件的再回表。这样回表的数据可以减少很多。还有一个好处没有索引下推就需要把数据都回表查出来这些数据可能在不同的页当中又会产生IO 条件下推下推到下一个条件符不符合。 10.2 ICP的开启/关闭默认情况下启用索引条件下推。可以通过设置系统变量optimizer_switch控制:index_condition_pushdown #打开索引下推 SET optimizer_switch index_condition_pushdownoff ; #关闭索引下推 SET optimizer_switch index_condition_pushdownon ; 当使用索引条件下推时EXPLAIN语句输出结果中Extra列内容显示为Using index condition 。 10.3ICP使用案例建表 CREATE TABLE people (id INT NOT NULL AUTO_INCREMENT,zipcode VARCHAR ( 20 ) COLLATE utf8_bin DEFAULT NULL,firstname varchar(20)COLLATE utf8_bin DEFAULT NULL,lastname varchar(20) COLLATE utf8_bin DEFAULT NULL,address varchar (50)COLLATE utf8_bin DEFAULT NULL,PRIMARY KEY ( id), KEY zip_last_first( zipcode , lastname, firstname) )ENGINEInnoDB AUTO_INCREMENT5 DEFAULT CHARSETutf8mb3 COLLATEutf8_bin; 插入数据 INSERT INTO people VALUES ( 1, 000001,三,张,北京市),( 2, 000002 ,四,李,南京市),( 3, 000003, 五,王,上海市),( 4 , 000001,六,赵,天津市);为该表定义联合索引zip_last_first (zipcodelastnamefirstname)。如果我们知道了一个人的邮编但是不确定这个人的姓氏我们可以进行如下检索: SELECT *FROM people WHERE zipcode 000001 AND lastname LIKE %张% AND address LIKE %北京市%;执行查看SQL的查询计划Extra中显示了Using index condition这表示使用了索引下推。另外Usingwhere表示条件中包含需要过滤的非索引列的数据即address LIKE %北京市%这个条件并不是索引列需要在服务端过滤掉。 10.4开启和关闭ICP的性能对比创建存储过程主要目的就是插入很多000001的数据这样查询的时候为了在存储引擎层做过滤减少IO也为了减少缓冲池缓存数据页没有IO的作用。 DELIMITER // CREATE PROCEDURE insert_people( max_num INT ) BEGIN DECLARE i INT DEFAULT 0;SET autocommit 0;REPEATSET i i 1;INSERT INTo people ( zipcode, firstname , lastname , address ) VALUES ( 000001,六, 赵,天津市);UNTIL i max_numEND REPEAT;COMMIT; END // DELIMITER ; 调用存储过程 call insert_people(1000000);首先打开profiling。 #查看 mysql show variables like profiling%; ------------------------------- | Variable_name | Value | ------------------------------- | profiling | OFF | | profiling_history_size | 15 | -------------------------------set profiling1 ;执行SQL语句此时默认打开索引下推。 SELECT * FROM people WHERE zipcode 000001 AND lastname LIKE %张%;再次执行SQL语句不使用索引下推 SELECT /* no_icp (people) */ * FROM people WHERE zipcode000001 AND lastname LIKE %张%;查看当前会话所产生的所有profiles show profiles\G ;结果如下。多次测试效率对比来看使用ICP优化的查询效率会好一些。这里建议多存储一些数据效果更明显。 10.1 使用前后的扫描过程在不使用ICP索引扫描的过程 storage层只将满足index key条件的索引记录对应的整行记录取出返回给server层 server 层对返回的数据使用后面的where条件过滤直至返回最后一行。使用ICP扫描的过程 storage层首先将index key条件满足的索引记录区间确定然后在索引上使用index filter进行过滤。将满足的index filter条件的索引记录才去回表取出整行记录返回server层。不满足index filter条件的索引记录丢弃不回表、也不会返回server层。 server 层对返回的数据使用table filter条件做最后的过滤。使用前后的成本差别使用前存储层多返回了需要被index filter过滤掉的整行记录使用ICP后直接就去掉了不满足index filter条件的记录省去了他们回表和传递到server层的成本。 ICP的加速效果取决于在存储引擎内通过 ICP筛选掉的数据的比例。 10.5 ICP的使用条件如果表访问的类型为range、ref、eq_ref和ref_or_null可以使用ICP ICP可以用于InnoDB和MyISAM表包括分区表InnoDB和MyISAM表对于InnoDB表ICP仅用于二级索引。ICP的目标是减少全行读取次数从而减少I/o操作。当SQL使用覆盖索引时不支持ICP。因为这种情况下使用ICP不会减少I/O。索引覆盖不能使用一个原因是索引覆盖不需要回表。。ICP作用是减小回表ICP需要回表相关子查询的条件不能使用ICP 11. 普通索引 vs 唯一索引从性能的角度考虑你选择唯一索引还是普通索引呢选择的依据是什么呢假设我们有一个主键列为ID的表表中有字段k并且在k上有索引假设字段 k 上的值都不重复。这个表的建表语句是 mysql create table test( id int primary key, k int not null, name varchar(16), index (k) )engineInnoDB;表中R1~R5的(ID,k)值分别为(100,1)、(200,2)、(300,3)、(500,5)和(600,6) 11.1 查询过程假设执行查询的语句是 select id from test where k5。对于普通索引来说查找到满足条件的第一个记录(5,500)后需要查找下一个记录直到碰到第一个不满足k5条件的记录。对于唯一索引来说由于索引定义了唯一性查找到第一个满足条件的记录后就会停止继续检索。那么这个不同带来的性能差距会有多少呢答案是微乎其微。 11.2 更新过程为了说明普通索引和唯一索引对更新语句性能的影响这个问题介绍一下change buffer。当需要更新一个数据页时如果数据页在内存中就直接更新而如果这个数据页还没有在内存中的话在不影响数据一致性的前提下 InooDB会将这些更新操作缓存在change buffer中这样就不需要从磁盘中读入这个数据页了。在下次查询需要访问这个数据页的时候将数据页读入内存然后执行change buffer中与这个页有关的操作。通过这种方式就能保证这个数据逻辑的正确性。将change buffer中的操作应用到原数据页得到最新结果的过程称为 merge 。除了访问这个数据页会触发merge外系统有后台线程会定期 merge。在数据库正常关闭shutdown 的过程中也会执行merge 操作。如果能够将更新操作先记录在change buffer 减少读磁盘语句的执行速度会得到明显的提升。而且数据读入内存是需要占用 buffer pool 的所以这种方式还能够避免占用内存提高内存利用率。唯一索引的更新就不能使用change buffer 实际上也只有普通索引可以使用。如果要在这张表中插入一个新记录(4,400)的话InnoDB的处理流程是怎样的 11.3 change buffer的使用场景普通索引和唯一索引应该怎么选择其实这两类索引在查询能力上是没差别的主要考虑的是对更新性能的影响。所以建议你尽量选择普通索引。在实际使用中会发现普通索引和 change buffer 的配合使用对于数据量大的表的更新优化还是很明显的。如果所有的更新后面都马上伴随着对这个记录的查询那么你应该关闭change buffer 。而在其他情况下change buffer都能提升更新性能。由于唯一索引用不上change buffer的优化机制因此如果业务可以接受从性能角度出发建议优先考虑非唯一索引。但是如果业务可能无法确保的情况下怎么处理呢 -首先业务正确性优先。我们的前提是“业务代码已经保证不会写入重复数据”的情况下讨论性能问题。如果业务不能保证或者业务就是要求数据库来做约束那么没得选必须创建唯一索引。这种情况下本节的意义在于如果碰上了大量插入数据慢、内存命中率低的时候给你多提供一个排查思路。然后在一些“ 归档库 ”的场景你是可以考虑使用唯一索引的。比如线上数据只需要保留半年然后历史数据保存在归档库。这时候归档数据已经是确保没有唯一键冲突了。要提高归档效率可以考虑把表里面的唯一索引改成普通索引。 12. 其它查询优化策略 12.1 EXISTS 和 IN 的区分问题不太理解哪种情况下应该使用 EXISTS哪种情况应该用 IN。选择的标准是看能否使用表的索引吗回答索引是个前提其实选择与否还是要看表的大小。你可以将选择的标准理解为小表驱动大表。在这种方式下效率是最高的。比如下面这样: SELECT *FROM A WHERE cc IN (SELECT cc FROM B)SELECT *FROM A WHERE EXISTS (SELECT cc FROM B WHERE B.ccA.cc)当A小于B时用EXISTS。因为EXISTS的实现相当于外表循环实现的逻辑类似于: for i in Afor j in Bif j.cc i.cc then ...当B小于A时用IN因为实现的逻辑类似于: for i in Bfor j in Aif j.cc i.cc then ...哪个表小就用哪个表来驱动A表小就用EXISTSB表小就用IN。 12.2 COUNT(*)与COUNT(具体字段)效率问: 在MySQL中统计数据表的行数可以使用三种方式: SELECT COUNT(*)、SELECT COUNT(1)和SELECT COUNT(具体字段)使用这三者之间的查询效率是怎样的? 答: 前提: 如果你要统计的是某个字段的非空数据行数则另当别论毕竟比较执行效率的前提是结果一样才可以。环节1: COUNT(*)和COUNT(1)都是对所有结果进行COUNTCOUNT(*)和COUNT(1)本质上并没有区别(二者执行时间可能略有差别不过你还是可以把它俩的执行效率看成是相等的)。如果有WHERE子句则是对所有符合筛选条件的数据行进行统计; 如果没有WHERE子句则是对数据表的数据行数进行统计。环节2: 如果是MyISAM存储引擎统计数据表的行数只需要o(1)的复杂度这是因为每张 MyISAM的数据表都有一个meta 信息存储了row_count值而一致性则由表级锁来保证。如果是InnoDB存储引擎因为InnoDB支持事务采用行级锁和MVCC机制所以无法像MyISAM一样维护一个row_count变量因此需要采用扫描全表是o(n) 复杂度进行循环计数的方式来完成统计。 **环节重点3:**在InnoDB引擎中如果采用COUNT(具体字段)来统计数据行数要尽量采用二级索引。因为主键采用的索引是聚簇索引聚簇索引包含的信息多明显会大于二级索引(非聚簇索引)。对于COUNT(*)和COUNT(1)来说它们不需要查找具体的行只是统计行数系统会自动采用占用空间更小的二级索引来进行统计。如果有多个二级索引会使用key_len 小的二级索引进行扫描。当没有二级索引的时候才会采用主键索引来进行统计。 12.3 关于SELECT(*) 在表查询中建议明确字段不要使用 * 作为查询的字段列表推荐使用SELECT 字段列表查询。原因 ① MySQL 在解析的过程中会通过查询数据字典将*按序转换成所有列名这会大大的耗费资源和时间。 ② 无法使用覆盖索引 12.4 LIMIT 1 对优化的影响针对的是会扫描全表的 SQL 语句如果你可以确定结果集只有一条那么加上 LIMIT 1 的时候当找到一条结果的时候就不会继续扫描了这样会加快查询速度。如果数据表已经对字段建立了唯一索引那么可以通过索引进行查询不会全表扫描的话就不需要加上 LIMIT 1 了。 12.5 多使用COMMIT 只要有可能在程序中尽量多使用 COMMIT这样程序的性能得到提高需求也会因为 COMMIT 所释放的资源而减少。 COMMIT 所释放的资源回滚段上用于恢复数据的信息被程序语句获得的锁redo / undo log buffer 中的空间管理上述 3 种资源中的内部花费 13. 淘宝数据库主键如何设计的聊一个实际问题淘宝的数据库主键是如何设计的某些错的离谱的答案还在网上年复一年的流传着甚至还成为了所谓的MySQL军规。其中一个最明显的错误就是关于MySQL的主键设计。大部分人的回答如此自信用8字节的 BIGINT 做主键而不要用INT。错这样的回答只站在了数据库这一层而没有从业务的角度思考主键。主键就是一个自增ID吗站在2022年的新年档口用自增做主键架构设计上可能连及格都拿不到。 13.1 自增ID的问题自增ID做主键简单易懂几乎所有数据库都支持自增类型只是实现上各自有所不同而已。自增ID除了简单其他都是缺点总体来看存在以下几方面的问题可靠性不高存在自增ID回溯的问题这个问题直到最新版本的MySQL 8.0才修复。安全性不高对外暴露的接口可以非常容易猜测对应的信息。比如/User/1/这样的接口可以非常容易猜测用户ID的值为多少总用户数量有多少也可以非常容易地通过接口进行数据的爬取。性能差自增ID的性能较差需要在数据库服务器端生成。交互多业务还需要额外执行一次类似 last_insert_id() 的函数才能知道刚才插入的自增值这需要多一次的网络交互。在海量并发的系统中多1条SQL就多一次性能上的开销。局部唯一性最重要的一点自增ID是局部唯一只在当前数据库实例中唯一而不是全局唯一在任意服务器间都是唯一的。对于目前分布式系统来说这简直就是噩梦。 13.2 业务字段做主键为了能够唯一地标识一个会员的信息需要为会员信息表设置一个主键。那么怎么为这个表设置主键才能达到我们理想的目标呢这里我们考虑业务字段做主键。表数据如下在这个表里哪个字段比较合适呢选择卡号cardno 会员卡号cardno看起来比较合适因为会员卡号不能为空而且有唯一性可以用来标识一条会员记录。 mysql CREATE TABLE demo.membermaster - ( - cardno CHAR(8) PRIMARY KEY, -- 会员卡号为主键 - membername TEXT, - memberphone TEXT, - memberpid TEXT, - memberaddress TEXT, - sex TEXT, - birthday DATETIME - ); Query OK, 0 rows affected (0.06 sec)不同的会员卡号对应不同的会员字段“cardno”唯一地标识某一个会员。如果都是这样会员卡号与会员一一对应系统是可以正常运行的。但实际情况是会员卡号可能存在重复使用的情况。比如张三因为工作变动搬离了原来的地址不再到商家的门店消费了退还了会员卡于是张三就不再是这个商家门店的会员了。但是商家不想让这个会员卡空着就把卡号是“10000001”的会员卡发给了王五。从系统设计的角度看这个变化只是修改了会员信息表中的卡号是“10000001”这个会员信息并不会影响到数据一致性。也就是说修改会员卡号是“10000001”的会员信息系统的各个模块都会获取到修改后的会员信息不会出现“有的模块获取到修改之前的会员信息有的模块获取到修改后的会员信息而导致系统内部数据不一致”的情况。因此从信息系统层面上看是没问题的。但是从使用系统的业务层面来看就有很大的问题了会对商家造成影响。比如我们有一个销售流水表trans记录了所有的销售流水明细。2020 年 12 月 01 日张三在门店购买了一本书消费了 89 元。那么系统中就有了张三买书的流水记录如下所示接着我们查询一下 2020 年 12 月 01 日的会员销售记录 mysql SELECT b.membername,c.goodsname,a.quantity,a.salesvalue,a.transdate - FROM demo.trans AS a - JOIN demo.membermaster AS b - JOIN demo.goodsmaster AS c - ON (a.cardno b.cardno AND a.itemnumberc.itemnumber); ------------------------------------------------------------------ | membername | goodsname | quantity | salesvalue | transdate | ------------------------------------------------------------------ | 张三 | 书 | 1.000 | 89.00 | 2020-12-01 00:00:00 | ------------------------------------------------------------------ 1 row in set (0.00 sec)如果会员卡“10000001”又发给了王五我们会更改会员信息表。导致查询时 mysql SELECT b.membername,c.goodsname,a.quantity,a.salesvalue,a.transdate - FROM demo.trans AS a - JOIN demo.membermaster AS b - JOIN demo.goodsmaster AS c - ON (a.cardno b.cardno AND a.itemnumberc.itemnumber); ------------------------------------------------------------------ | membername | goodsname | quantity | salesvalue | transdate | ------------------------------------------------------------------ | 王五 | 书 | 1.000 | 89.00 | 2020-12-01 00:00:00 | ------------------------------------------------------------------ 1 row in set (0.01 sec)这次得到的结果是王五在 2020 年 12 月 01 日买了一本书消费 89 元。显然是错误的结论千万不能把会员卡号当做主键。选择会员电话或身份证号会员电话可以做主键吗不行的。在实际操作中手机号也存在被运营商收回重新发给别人用的情况。那身份证号行不行呢好像可以。因为身份证决不会重复身份证号与一个人存在一一对应的关系。可问题是身份证号属于个人隐私顾客不一定愿意给你。要是强制要求会员必须登记身份证号会把很多客人赶跑的。其实客户电话也有这个问题这也是我们在设计会员信息表的时候允许身份证号和电话都为空的原因。所以建议尽量不要用跟业务有关的字段做主键。毕竟作为项目设计的技术人员我们谁也无法预测在项目的整个生命周期中哪个业务字段会因为项目的业务需求而有重复或者重用之类的情况出现。经验刚开始使用 MySQL 时很多人都很容易犯的错误是喜欢用业务字段做主键想当然地认为了解业务需求但实际情况往往出乎意料而更改主键设置的成本非常高。 13.3 淘宝的主键设计在淘宝的电商业务中订单服务是一个核心业务。请问订单表的主键淘宝是如何设计的呢是自增ID吗打开淘宝看一下订单信息从上图可以发现订单号不是自增ID我们详细看下上述4个订单号 1550672064762308113 1481195847180308113 1431156171142308113 1431146631521308113订单号是19位的长度且订单的最后5位都是一样的都是08113。且订单号的前面14位部分是单调递增的。大胆猜测淘宝的订单ID设计应该是订单ID 时间去重字段用户ID后6位尾号这样的设计能做到全局唯一且对分布式系统查询及其友好。 13.4 推荐的主键设计非核心业务对应表的主键自增ID如告警、日志、监控等信息。核心业务主键设计至少应该是全局唯一且是单调递增。全局唯一保证在各系统之间都是唯一的单调递增是希望插入时不影响数据库性能。这里推荐最简单的一种主键设计UUID。 UUID的特点全局唯一占用36字节数据无序插入性能差。认识UUID 为什么UUID是全局唯一的为什么UUID占用36个字节为什么UUID是无序的 MySQL数据库的UUID组成如下所示 UUID 时间UUID版本16字节- 时钟序列4字节 - MAC地址12字节我们以UUID值e0ea12d4-6473-11eb-943c-00155dbaa39d举例 : 为什么UUID是全局唯一的在UUID中时间部分占用60位存储的类似TIMESTAMP的时间戳但表示的是从1582-10-15 000000.00到现在的100ns的计数。可以看到UUID存储的时间精度比TIMESTAMPE更高时间维度发生重复的概率降低到1/100ns。时钟序列是为了避免时钟被回拨导致产生时间重复的可能性。MAC地址用于全局唯一。为什么UUID占用36个字节 UUID根据字符串进行存储设计时还带有无用-字符串因此总共需要36个字节。为什么UUID是随机无序的呢因为UUID的设计中将时间低位放在最前面而这部分的数据是一直在变化的并且是无序。改造UUID 若将时间高低位互换则时间就是单调递增的了也就变得单调递增了。MySQL 8.0可以更换时间低位和时间高位的存储方式这样UUID就是有序的UUID了。 MySQL 8.0还解决了UUID存在的空间占用的问题除去了UUID字符串中无意义的-字符串并且将字符串用二进制类型保存这样存储空间降低为了16字节。可以通过MySQL8.0提供的uuid_to_bin函数实现上述功能同样的MySQL也提供了bin_to_uuid函数进行转化 SET uuid UUID(); SELECT uuid,uuid_to_bin(uuid),uuid_to_bin(uuid,TRUE); # uuid_to_bin(uuid) 转成16进制存储 # uuid_to_bin(uuid,TRUE); 修改成先高位中位地位就可以保证uuid地政了**通过函数uuid_to_bin(uuid,true)将UUID转化为有序UUID了。**全局唯一单调递增这不就是我们想要的主键 4、有序UUID性能测试 16字节的有序UUID相比之前8字节的自增ID性能和存储空间对比究竟如何呢我们来做一个测试插入1亿条数据每条数据占用500字节含有3个二级索引最终的结果如下所示从上图可以看到插入1亿条数据有序UUID是最快的而且在实际业务使用中有序UUID在业务端就可以生成。还可以进一步减少SQL的交互次数。另外虽然有序UUID相比自增ID多了8个字节但实际只增大了3G的存储空间还可以接受。在当今的互联网环境中非常不推荐自增ID作为主键的数据库设计。更推荐类似有序UUID的全局唯一的实现。另外在真实的业务系统中主键还可以加入业务和系统属性如用户的尾号机房的信息等。这样的主键设计就更为考验架构师的水平了。如果不是MySQL8.0 肿么办手动赋值字段做主键比如设计各个分店的会员表的主键因为如果每台机器各自产生的数据需要合并就可能会出现主键重复的问题。可以在总部 MySQL 数据库中有一个管理信息表在这个表中添加一个字段专门用来记录当前会员编号的最大值。门店在添加会员的时候先到总部 MySQL 数据库中获取这个最大值在这个基础上加 1然后用这个值作为新会员的“id”同时更新总部 MySQL 数据库管理信息表中的当前会员编号的最大值。这样一来各个门店添加会员的时候都对同一个总部 MySQL 数据库中的数据表字段进行操作就解决了各门店添加会员时会员编号冲突的问题。

查看全文

http://www.lakalapos1.cn/news/66465/