面试题|无索引如何删除亿级数据？

栏目: 数据库 · 发布时间: 5年前

内容简介：一业务需求某业务表a 数据量大约4.7亿，单表物理大小为370G，其中某些指定xxid='xxx'值的记录大约2亿。受限于磁盘空间比较紧张，需要对在无索引的情况下删除无效数据。如何优雅的删除呢？存在索引的情况下就比较简单，直接利用索引进行删除，写一个for 循环语句每次删除500行，每次判断delete 影响的行数可以累加计算删除了多少行，直到删除结果为0行。

一业务需求

某业务表a 数据量大约4.7亿，单表物理大小为370G，其中某些指定xxid='xxx'值的记录大约2亿。受限于磁盘空间比较紧张，需要对在无索引的情况下删除无效数据。如何优雅的删除呢？

二思路

2.1 xxid本身有索引

存在索引的情况下就比较简单，直接利用索引进行删除，写一个for 循环语句每次删除500行，每次判断delete 影响的行数可以累加计算删除了多少行，直到删除结果为0行。

那么问题来了，如果要求不能创建索引怎么处理？

2.2 xxid 字段无索引

因为表占用的空间已经比较大 370G ，再添加索引会更大。因为没有索引，故我们不能直接像方法一那样根据 where xxxid='xxx' 删除数据，那样更慢，可能会引发故障。

我们采取 分而治之 的方式，基于主键把表的数据分段，比如每段1000行-2000行(如果主键id不连续则实际数据量会小于指定分段数据)。然后在这1000行里面删除指定的数据，这样delete的执行效率会比直接依赖 xxxid='xxx' 好很多。

代码如下:

这个脚本可以记录上一次的id，用上一次id 作为 init_id进行删除。第一次使用的时候需要手工初始化/tmp/del_aid.id 比如写入 0 或者符合条件的最小主键 id。

2.3 如何更快速的删除

这个环节就当做思考题吧，可以不考虑从库的延迟。大家有什么好的思路，可以分享一下。

推荐文章

工具|Explain 使用分析

哪些因素会导致慢查询？

-The End-

本公众号长期关注于数据库技术以及性能优化，故障案例分析，数据库运维技术知识分享，个人成长和自我管理等主题，欢迎扫码关注。

面试题|无索引如何删除亿级数据？

以上所述就是小编给大家介绍的《面试题|无索引如何删除亿级数据？》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

图解物联网

［日］ NTT DATA集团、河村雅人、大塚纮史、小林佑辅、小山武士、宫崎智也、石黑佑树、小岛康平 / 丁　灵 / 人民邮电出版社 / 2017-4 / 59.00元

本书图例丰富，从设备、传感器及传输协议等构成IoT的技术要素讲起，逐步深入讲解如何灵活运用IoT。内容包括用于实现IoT的架构、传感器的种类及能从传感器获取的信息等，并介绍了传感设备原型设计必需的Arduino等平台及这些平台的选择方法，连接传感器的电路，传感器的数据分析，乃至IoT跟智能手机/可穿戴设备的联动等。此外，本书以作者们开发的IoT系统为例，讲述了硬件设置、无线通信及网络安全等运用Io......一起来看看《图解物联网》这本书的介绍吧!

码农工具

面试题|无索引如何删除亿级数据？

二思路

2.1 xxid本身有索引

2.2 xxid 字段无索引

2.3 如何更快速的删除

图解物联网

URL 编码/解码

MD5 加密

SHA 加密

面试题|无索引如何删除亿级数据？

二 思路

2.1 xxid本身有索引

2.2 xxid 字段无索引

2.3 如何更快速的删除

图解物联网

URL 编码/解码

MD5 加密

SHA 加密

二思路