误删数据处理

误删数据分类：

使用delete语句误删数据行；
使用drop table或者truncate table语句误删数据表；
使用drop database语句误删数据库；
使用rm命令误删整个MySQL实例。

误删行

如果使用delete语句误删了数据行，可以用Flashback工具通过闪回把数据恢复回来。

Flashback恢复数据的原理，是修改binlog的内容，拿回原库重放。前提要确保binlog_format=row和binlog_row_image=FULL。

单个事务

对于insert语句，对应的binlog event类型是Write_rows event，把它改成Delete_rows event即可；
对于delete语句，将Delete_rows event改为Write_rows event；
如果是Update_rows，binlog里面记录了数据行修改前后修改后的值，对调这两行的位置即可。

多个事务

(A)delete …
(B)insert …
(C)update …

写回主库的命令是：

(reverse C)update …
(reverse B)delete …
(reverse A)insert …

误删数据涉及多个事务的话，需要将事务的顺序倒过来再执行。

事后处理

恢复数据比较安全的做法，恢复出一个备份，或者找一个从库作为临时库，在临时库上执行这些操作，然后再讲确认过的临时库的数据，恢复回主库。

一个在执行线上逻辑的主库，数据状态的变更往往是有关联的。发现数据问题的时间晚一点，容易导致已经在之前误操作的基础上，业务代码逻辑又继续修改了其他数据。单独恢复这几行数据，又未经过确认，可能会出现对数据的二次破坏。

事前预防

把sql_safe_updates参数设置为on。如果忘记delete或者update语句中写where条件，或者where条件里面没有包含索引字段的话，这条语句的执行就会报错。

设置为on后确实要删，可以在delete语句中加上where条件，where id>=0。
代码上线前，做SQL审计。

delete全表很慢，需要生成回滚日志undo、写redo、写binlog。从性能角度考虑，应该优先考虑使用truncate table或者drop table命令。

使用delete命令删除的数据，可以用Flashback来恢复，而使用truncate/drop table和drop database命令删除的数据，就没办法通过Flashback来恢复了。即使配置了binlog_format=row，执行这三个命令时，记录的binlog还是statement格式，binlog里面只有一个truncate/drop语句，这些信息是恢复不出数据的。

误删库/表

这种情况下，要想恢复数据，就需要使用全量备份，加增量日志的方式，这个方案要求线上有定期的全量备份，并且实时备份binlog。

binlog备份应用到临时库

中午12点误删后恢复流程：

取最近一次全量备份，假设这个库是一天一备，上次备份是当天0点；
用备份会付出一个临时库；
从日志备份里面，取出0点之后的日志；
把这些日志，除了误删数据的语句外，全部应用到临时库。

优化：

为了加速数据恢复，如果这个临时库上有多个数据库，可以在使用mysqlbinlog命令时，加上一个database参数，用来指定误删表所在的库，避免了在恢复数据时还要应用其他库日志的情况。
在应用日志的时候，需要跳过12点误操作的那个语句的binlog：
- 如果原实例没有使用GTID模式，只能在应用到包含12点的binlog文件的时候，先用-stop-position参数执行到误操作之前的日志，然后再用-start-position从误操作之后的日志继续执行；
- 如果实例使用了GTID模式，假设误操作命令的GTID是gtid1，那么只需要执行set gtid_next=gtid1;begin;commit;先把这个GTID加到临时实例的GTID集合，之后按顺序执行binlog的时候，就会自动跳过误操作的语句。

问题：

如果是误删表，最好就是只恢复出这张表，也就是只重放这张表的操作，但是mysqlbinlog工具并不能指定只解析一个表的日志；
用mysqlbinlog解析出日志应用，应用日志的过程只能是单线程。并行复制的方法用不上。

临时库接到备库上

在备份恢复出临时实例之后，将这个临时实例设置成线上备库的从库：

在start slave之前，先通过执行change replication filter replicate_do_table=(tbl_name)命令，就可以让临时库只同步误操作的表；
同时可以用上并行复制技术，来加速整个数据恢复过程。

如果由于时间太久，备库上(show binlogs最小的binlog文件master.00007)已经删除了临时实例需要的binlog(master.000005)，可以从binlog备份系统中找到需要的binlog，再放回备库中。

从备份系统下载master.000005和master.000006这两个文件，放到备库的日志目录下；
打开日志目录下的master.index文件，在文件开头加入两行，内容分别是“./master.000005”和“./master.000006”；
重启备库，目的是让备库重新识别这两个日志文件；
备库上备齐临时库需要的所有binlog，建立主备关系，可以正常同步。

误删库或者表后，恢复数据的思路主要就是通过备份，再加上应用binlog的方式。两个方案都要求备份系统定期备份全量日志，而且需要确保binlog在被从本地删除之前已经做了备份。但一个系统不可能备份无限的日志。

数据恢复功能做成自动化工具，并且经常拿出来演练。

延迟复制备库

利用并行复制来加速恢复数据的过程，依然存在恢复时间不可控的问题。

如果一个库的备份特别大，或者误操作的时间距离上一个全量备份的时间较长，恢复时间较长。如果有非常核心的业务，不允许太长的恢复时间，可以考虑搭建延迟复制的备库。MySQL5.6引入。

一般的主备复制结果存在的问题，如果主库上有个表被误删了，这个命令很快也会被发给所有的从库，进而导致所有从库的数据表也都一起被误删。

延迟复制的备库是一种特殊的备库，通过change master to master_delay=n命令，可以执行这个备库持续保持跟主库有N秒的延迟。

发现误删后，在备库上执行stop slave，在通过之前介绍的方法，跳过误操作命令，可以得到一个只延迟n秒就可以恢复出数据的临时实例。

预防误删库/表的方法

账号分离

目的是避免写错命令

只给业务开发同学DML权限，而不给truncate/drop权限。如果业务开发人员有DDL需求，可以通过开发管理系统得到支持。
即使是DBA团队成员，日常也都规定只使用只读账号，必要的时候才使用有更新权限的账号。

show grants命令查看账户的权限。

指定操作规范

目的是避免写错要删除的表名

在删除数据表之前，必须先对表做改名操作。然后，观察一段时间，确保对业务无影响以后再删除这张表。
改表名的时候，要求给表名加固定的后缀(如_to_be_deleted)，然后删除表的动作必须通过管理系统执行。并且管理系统删除表的时候，只能删除固定后缀的表。

rm删除数据

高可用MySQL集群。不怕rm删除数据。只要不是恶意的把整个集群删除，而只是删掉了其中某一个节点的数据，HA系统会开始工作，选出一个新的主库，从而保证整个集群的正常工作。个人只需要在这个节点上把数据恢复回来，再接入整个集群。