MySQL自增ID耗尽实例讲解

yhljxy

2019-03-21

显示定义ID

表定义的自增值ID达到上限后，在申请下一个ID时，得到的值保持不变

-- (2^32-1) = 4,294,967,295
-- 建议使用 BIGINT UNSIGNED
CREATE TABLE t (id INT UNSIGNED AUTO_INCREMENT PRIMARY KEY) AUTO_INCREMENT=4294967295;
INSERT INTO t VALUES (null);

-- AUTO_INCREMENT没有改变
mysql> SHOW CREATE TABLE t;
+-------+------------------------------------------------------+
| Table | Create Table           |
+-------+------------------------------------------------------+
| t  | CREATE TABLE `t` (
 `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
 PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=4294967295 DEFAULT CHARSET=utf8 |
+-------+------------------------------------------------------+

mysql> INSERT INTO t VALUES (null);
ERROR 1062 (23000): Duplicate entry '4294967295' for key 'PRIMARY'

InnoDB row_id

1、如果创建的InnoDB表没有指定主键，那么InnoDB会创建一个不可见的，长度为6 Bytes的row_id

2、InnoDB维护一个全局的dict_sys.row_id值，所有无主键的InnoDB表，每插入一行数据

都将当前的dict_sys.row_id值作为要插入数据的row_id，然后把dict_sys.row_id的值+1

3、代码实现上，row_id是一个8 Bytes的BIGINT UNSIGNED

但InnoDB设计时，给row_id只保留了6 Bytes的空间，写到数据表时只会存放最后的6 Bytes
row_id的取值范围：0 ~ 2^48-1
达到上限后，下一个值就是0

4、在InnoDB里面，申请到row_id=N后，就将这行数据写入表中

如果表中已经有row_id=N的行，新写入的行就会覆盖原有的行

5、推荐显示创建自增主键

表自增ID达到上限后，再插入数据时会报主键冲突的错误，影响的是可用性
而覆盖数据，意味着数据丢失，影响的是可靠性
一般来说，可靠性优于可用性

XID

1、redolog和binlog相配合的时候，有一个共同的字段XID，对应一个事务

2、生成逻辑

MySQL内部维护一个全局变量global_query_id
每次执行语句的时候将global_query_id赋值给Query_id，然后global_query_id+1
如果当前语句是这个事务执行的第一条语句，把Query_id赋值给这个事务的XID

3、global_query_id是一个纯内存变量，重启之后清零

因此，在同一个数据库实例中，不同事务的XID也有可能是相同的
MySQL重启之后，会重新生成新的binlog
- 保证：同一个binlog文件里，XID是唯一的
global_query_id达到上限后，就会继续从0开始计数
- 因此理论上，同一个binlog还是会出现相同的XID，只是概率极低

4、global_query_id是8 Bytes，上限为2^64-1

执行一个事务，假设XID是A
接下来执行2^64次查询语句，让global_query_id回到A
再启动一个事务，这个事务的XID也是A

InnoDB trx_id

1、XID是由Server层维护的

2、InnoDB内部使用的是trx_id，为的是能够在InnoDB事务和Server层之间做关联

3、InnoDB内部维护一个max_trx_id的全局变量

每次需要申请一个新的trx_id，就获得max_trx_id的当前值，然后max_trx_id+1

4、InnoDB数据可见性的核心思想

每一行数据都记录了更新它的trx_id
当一个事务读到一行数据的时候，判断数据可见性的方法
- 事务的一致性视图和这行数据的trx_id做对比

5、对于正在执行的事务，可以通过information_schema.innodb_trx看到事务的trx_id

操作序列

时刻	session A	session B
T1	BEGIN; SELECT * FROM t LIMIT 1;
T2		USE information_schema; SELECT trx_id,trx_mysql_thread_id FROM innodb_trx;
T3	INSERT INTO t VALUES (null);
T4		SELECT trx_id,trx_mysql_thread_id FROM innodb_trx;

-- T2时刻
mysql> SELECT trx_id,trx_mysql_thread_id FROM innodb_trx;
+-----------------+---------------------+
| trx_id   | trx_mysql_thread_id |
+-----------------+---------------------+
| 281479812572992 |     30 |
+-----------------+---------------------+

-- T4时刻
mysql> SELECT trx_id,trx_mysql_thread_id FROM innodb_trx;
+-----------------+---------------------+
| trx_id   | trx_mysql_thread_id |
+-----------------+---------------------+
| 7417540   |     30 |
+-----------------+---------------------+

mysql> SHOW PROCESSLIST;
+----+-----------------+-----------+--------------------+---------+--------+------------------------+------------------+
| Id | User   | Host  | db     | Command | Time | State     | Info    |
+----+-----------------+-----------+--------------------+---------+--------+------------------------+------------------+
| 4 | event_scheduler | localhost | NULL    | Daemon | 344051 | Waiting on empty queue | NULL    |
| 30 | root   | localhost | test    | Sleep | 274 |      | NULL    |
| 31 | root   | localhost | information_schema | Query |  0 | starting    | SHOW PROCESSLIST |
+----+-----------------+-----------+--------------------+---------+--------+------------------------+------------------+

1、trx_mysql_thread_id=30就是线程ID，即session A所在的线程

2、T1时刻，trx_id的值其实为0，而很大的值只是为了显示用的（区别于普通的读写事务）

3、T2时刻，trx_id是一个很大的数字，因为在T1时刻，session A并未涉及更新操作，是一个只读事务

对于只读事务，InnoDB不会分配trx_id

4、session A在T3时刻执行INSERT语句时，InnoDB才真正分配trx_id

只读事务

1、在上面的T2时刻，很大的trx_id是由系统临时计算出来的

把当前事务的trx变量的指针地址转成整数，再加上2^48

2、同一个只读事务在执行期间，它的指针地址是不会变的

不论是在innodb_trx还是innodb_locks表里，同一个只读事务查出来的trx_id都是一样的

3、如果有多个并行的只读事务，每个事务的trx变量的指针地址肯定是不同的

不同的并发只读事务，查出来的trx_id是不同的

4、加上2^48的目的：保证只读事务显示的trx_id值比较大，用于区别普通的读写事务

5、trx_id与row_id的逻辑类似，定义长度为8 Bytes

在理论上，可能会出现一个读写事务与一个只读事务显示的trx_id相同的情况
但概率极低，并且没有什么实质危害

6、只读事务不分配trx_id的好处

可以减少事务视图里面活跃数组的大小
- 当前正在运行的只读事务，是不影响数据的可见性判断
- 因此，在创建事务的一致性视图时，只需要拷贝读写事务的trx_id
可以减少trx_id的申请次数
- 在InnoDB里，即使只执行一条普通的SELECT语句，在执行过程中，也要对应一个只读事务
- 如果普通查询语句不申请trx_id，就可以大大减少并发事务申请trx_id的锁冲突
- 由于只读事务不分配trx_id，trx_id的增加速度会变慢

7、max_trx_id会持久化存储，重启不会重置为0，只有到达2^48-1的上限后，才会重置为0

thread_id

1、SHOW PROCESSLIST的第一列就是thread_id

2、系统保存了一个环境变量thread_id_counter

每新建一个连接，就将thread_id_counter赋值给这个新连接的线程变量

3、thread_id_counter定义为4 Bytes，因此达到2^32-1后就会重置为0

但不会在SHOW PROCESSLIST里面看到两个相同的thread_id
因为MySQL设计了一个唯一数组的逻辑，给新线程分配thread_id，逻辑代码如下

do {
  new_id= thread_id_counter++;
} while (!thread_ids.insert_unique(new_id).second);

参考资料

《MySQL实战45讲》

总结

ul mysql创建数据库 innodb mysql

yhljxy

0 关注 0 粉丝 0 动态

关注关注

编程语言TOP10！该如何选择适合自己的？

编程领域大约有700种代码语言。理解编程语言的重要性以及其如何影响需要执行的具体任务至关重要。一篇文章穷尽700 种语言不现实，也没有意义。因此，笔者挑选出了时下最热门的原因，在本文中一一分析其特征、优缺点和发展方向，并确定其是否有学习价值。根据设计，C

chensen 2020-11-14

选择困难终结者：不同问题之下的机器学习算法

刚开始学习数据科学时，笔者经常面临这样一个问题：遇到具体问题，选择何种算法才合适。也许你也和我一样，搜了很多有关机器学习算法的文章，会看到许多详细的描述，却并没有减少让抉择的难度。问题陈述2：深挖客户统计数据用以识别模式。问题陈述12：根据车辆特性预估车辆

lwnylslwnyls 2020-11-06

Dubbo中的时间轮(Time Wheel)算法应用

Netty、Quartz、Kafka 以及 Linux 都有定时任务功能。在任务量大、性能要求高的场景，为了将任务存取及取消操作时间复杂度降为 O，会采用时间轮算法。指针周期性跳动，跳动到一个槽位，就执行该槽位的定时任务。需要高效的定时器算法以减少总体中断

ATenhong 2020-10-15

前端一面基础知识 ⑥——性能优化、Web安全、Linux常用命令

④用户输入结束或暂停时，才会触发change事件，类似搜索框中输入信息停下来1秒后才会出现可能要搜索的内容。控制事件发生的频率，如控制为1秒发生一次，甚至1分钟发生一次。与服务端及网关控制的限流类似。防抖是触发间隔大于time触发，所以每次在小于间隔tim

yanzhelee 2020-10-13

Java程序员怎样打造高效率的开发环境

作为一名程序员，好的开发环境可以提升你的工作效率，事半功倍。那么一名Java程序员应该拥有什么样的开发工具呢。java程序员都知道，第一节课就会教你安装jdk。jdk是java开发工具包，包含了jvm虚拟机，你写的java代码就是通过jdk编译运行的。ja

佛系程序员J 2020-10-10

AI创业哪家强？6大选择给你方向

guojin0 2020-10-08

如何使Java程序员拥有高效率的开发环境

佛系程序员J 2020-10-08

《Machine Learning Yearning》总结

在训练数据不足的情况下，你可以尝试引入额外的训练数据，只要它们能提供对训练有价值的信息。如果模型在引入额外数据的训练数据集和引入额外数据的测试数据集中都表现的很好，但在不引入额外数据的测试数据集中表现糟糕，那么这种情况称为：数据不匹配。此时可以考虑在目标函

bluewelkin 2020-09-16

移动APP开发有哪些框架？

现在比较流行的移动APP开发框架有以下六种：网页、混合、不仅、原生、桥接、自绘。前三种体验与Web的体验相似，后三种与原生APP的体验相似。这六种框架形式，都有自己适用的范围。无所谓好坏，适用就是好。自绘应用适用于游戏和有特殊效果的应用，最大的好处是没有平

wwzaqw 2020-09-04

那些与健康运营密切相关的衡量标准

下面，我们将和您在健康运营的过程中，企业所面临的各项挑战、痛点、以及需要衡量的各项关键指标。在此基础上，我们会进一步给出一个标准成熟度模型，以及对应的实践案例。同时，由于不同团队各司其职、各自为政，因此数据孤岛的现象在企业中屡见不鲜。对应的KPI包括：了解

zhongdaowendao 2020-09-02

mysql分库分表篇

当表的数量达到几百上千张表时，众多的业务模块都访问这个数据库，压力会非常的大，考虑对其进行分库。支持MySQL、Oracle、DB2、SQL Server、PostgreSQL等DB的常见SQL语法。基于心跳的自动故障切换，支持读写分离，支持MySQ

favouriter 2020-08-18

怎么才能隐藏的IP？打造超强IP池项目，让你自己都忘记原本的IP

随着大型网站反扒机制的增强，更改IP登陆已经成为一种最高效的方式，为此打造一款超强IP池项目，采用最新最快的Python技术——异步。编写了一个免费的异步爬虫代理池，以 Python asyncio 为基础，充分利用 Python 的异步性能，异步处理比同

奎因amp华洛 2020-08-15

移动端跨平台技术之下的变与不变

跨 Native 与 Web：商品详情页等要求有一套功能差不多的 Web 页能够在端外访问，需要跨 Native App 与 Web. 容器化 Native 跨端：将 Native App 改造成标准化的容器，进而允许一套代码跨多端标准容器运行，如 Rea

一青年 2020-08-13

数据科学家的工具列表：提高生产效率的工具包

本文转载自公众号“读芯术”。新的东西令人激动，新的框架、新的仪器、新的工具，都会让生活变得更轻松。保持更新很难，我们需要花更多的时间在其上。当然，我们并不是要一直更新到最新的发现，它可能是某个特定库的新的小版本，也可能是处于兴趣或是工作需要而寻找。应用tf

千锋 2020-08-10

JVM

新生代，老年代，永久代/元空间。晋升机制根据对象存活时间。jmap -dump:file=[文件名] pid：将进程运行的状况dump到文件中,文件通过fastThread线上工具分析。

nangongyanya 2020-08-09

MyBatis接口代理方式实现Dao层

Mybatis中namespace用于绑定dao接口，dao接口的方法对应mapper中的sql语名。--默认名为类名首字母小写-->. --environment配置数据库环境 id 属性唯一标识 -->. --dataSource数据源信息

dongxurr 2020-08-08

Python名称空间与作用域

在python解释器开始执行, 就会在内存中开辟一个空间, 每当遇到一个变量的时候, 就把变量名和值之间的关系记录下来,当遇到函数定义的时候, 解释器只是把函数名读入内存, 并检查语法是否正确，表示这个函数存在了, 至于函数内部的变量和逻辑, 解释器是不关

明天你好 2020-08-03

python List 和Numpy array 区别

一个numpy array 是内存中一个连续块，并且array里的元素都是同一类。　　 list完全不同，它的每个元素其实是一个地址的引用，这个地址又指向了另一个元素，这些元素的在内存里不一定是连续的。所以list其实是只能塞进地址的“数组”

kyelu 2020-08-03

Redis 内存压缩原理

Redis 无疑是一个大量消耗内存的数据库，因此 Redis 引入了一些设计巧妙的数据结构进行内存压缩来减轻负担。ziplist、quicklist 以及 intset 是其中最常用最重要的压缩存储结构。Redis对外提供了 string, list, h

Ashes 2020-08-03

数据准备基本流程数据规范化的几种方法利用SciKit库进行数据变换

就是将多个数据源合并存放在一个数据仓库中。与主流的ETL的区别是：在抽取后首先将结果写入目的地，然后通过数据库的聚合分析能力或外部计算框架来完成转换。通过以下方法针对算法对数据进行变换。数据平滑---去除数据中的噪声，将连续数据离散化。

wndong 2020-08-01

安科网

MySQL自增ID耗尽实例讲解

yhljxy

yhljxy

相关推荐

编程语言TOP10！该如何选择适合自己的？

选择困难终结者：不同问题之下的机器学习算法

Dubbo中的时间轮(Time Wheel)算法应用

前端一面基础知识 ⑥——性能优化、Web安全、Linux常用命令

Java程序员怎样打造高效率的开发环境

AI创业哪家强？6大选择给你方向

如何使Java程序员拥有高效率的开发环境

《Machine Learning Yearning》总结

移动APP开发有哪些框架？

那些与健康运营密切相关的衡量标准

mysql分库分表篇

怎么才能隐藏的IP？打造超强IP池项目，让你自己都忘记原本的IP

移动端跨平台技术之下的变与不变

数据科学家的工具列表：提高生产效率的工具包

JVM

MyBatis接口代理方式实现Dao层

Python名称空间与作用域

python List 和Numpy array 区别

Redis 内存压缩原理

数据准备基本流程数据规范化的几种方法利用SciKit库进行数据变换

yhljxy