0%

日志系统

更新语句的执行链路与查询语句类似。多两个日志模块:redo log(重做日志)和binlog(归档日志)。

redo log

  • 每一次的更新操作都要写进磁盘,磁盘需要找到对应的那条记录,然后再更新,IO成本、查找成本高。
  • WAL技术(Write-Ahead Logging),先写日志并更新内存(同时),再写磁盘。

    将磁盘随机写变成顺序写,避免了数据的随机写。并且可以组提交(合并写)。

当有一条记录需要更新的时候,InnoDB引擎先把记录写到redo log里面,并更新数据内存(同时)。InnoDB引擎会在适当的时候(系统比较空闲的时候),将这个操作记录更新到磁盘中(落盘前的其他查询直接从内存返回最新数据)。

数据库更新操作基于内存页,默认大小16K,更新时不直接更新磁盘,内存中存在就直接更新内存页,不存在就从磁盘再取到内存,再更新内存。

InnoDB的redo log大小固定,可配置为一组4个文件,每个文件的大小是1G,总共可以记录4GB的操作。从头开始写,写到末尾就又回到开头循环写(环形)。

write pos是当前记录的位置,一边写一边后移,写到3号文件末尾后回到0号文件开头。
checkpoint是当前要擦除的位置,往后推移并循环,擦除记录前要把记录更新到数据文件。

write pos与checkpoint之间的部分空余,用来记录新的操作。如果write pos追上checkpoint,不能再执行新的更新。

InnoDB通过redo log保证数据库发生异常重启时,之前提交的记录不会丢失。crash-safe能力。
redo log保证了事务ACID。

binlog

Server层,负责功能层面的事情;引擎层,负责存储相关的事情。
redo log是InnoDB引擎特有的日志,Server层的日志称为binlog(归档日志)。

不同点:

  • redo log是InnoDB引擎特有的;binlog是MySQL的Server层实现的,所有引擎都可以使用。
  • redo log是物理日志,记录的是“在某个数据页上作了什么修改”,只能独享;binlog是逻辑日志,记录的是语句的原始逻辑,可以共享(其他数据库,其他引擎),比如“给ID=2的行的C字段加1”。

    redo log记录这个页“做了什么改动”;binlog两种模式:statement格式记录sql语句、row格式记录行的内容(两条:更新前&更新后)。

  • redo log是循环写的,空间固定会用完;binlog是可以追加写入的。binlog文件写到一定大小后会切换到下一个,并不会覆盖以前的日志。记录所有的逻辑操作。

    set sql_log_bin=0;关闭本线程的binlog日志,只依赖binlog恢复数据不可靠。

update语句执行流程:

  • 执行器先找引擎取ID=2这一行,ID是主键,引擎直接用树搜索找到这一行。如果ID=2这一行所在的数据页本来就在内存中,就直接返回给执行器;否则,需要先从磁盘读入内存,然后再返回。
  • 执行器拿到引擎给的行数据,把这个值加1,得到新的一行数据,调用引擎接口写入这行新数据。
  • 引擎将这行新数据更新到内存中,同时将这个更新操作记录到redo log中,此时redo log处于prepare状态,然后告知执行器执行完成,随时可以提交事务。
  • 执行器生成这个操作的binlog,并把binlog写入磁盘
  • 执行器调用引擎的提交事务接口,引擎把写入的redo log改成commit(提交)状态,更新完成。

    prepare写日志的最后一个512字节,会在commit时被改掉,不是追加写。
    update语句执行流程,将redo log的写入拆成了两个步骤:prepare和commit。两阶段提交

两阶段提交

两阶段提交,保证两份日志之间的逻辑一致。

redo log和binlog都可以用于表示事务的提交状态,两阶段提交让这两个状态保持逻辑上的一致。

两阶段提交也是跨系统维持数据逻辑一致性时常用的一个方案。

恢复数据

  • 找到最近一次全量备份,从这个备份恢复到临时库。
  • 从备份的时间点开始,将备份的binlog依次取出来,重放到指定时刻。

崩溃恢复时,接受“redo log prepare并且binlog完整的情况。”。一个事务的完整binlog有固定的格式—固定的结尾。
如果redo log是完整的包含prepare和commit,直接认为成功,恢复时不需要去判断binlog。(binlog写失败时,让innoDB引擎给 该事务打上rollback标签,不用回滚日志。)

假设当前ID=2的行,字段c的值是0,执行update语句过程中在写完第一个日志后,第二个日志还没有写完期间发生了crash。

  1. 先写redo log后写binlog。
    redo log写完之后,系统即使崩溃,仍然能够把数据恢复回来,恢复后这一行c的值是1。
    由于binlog没写完,没有记录这个update语句,如果需要用到binlog恢复临时库时,临时库就少了这一次更新,恢复出来的这一行c的是0,与原库的值不同。

  2. 先写binlog后写redo log。
    binlog写完之后crash,redo log还没写完,崩溃恢复之后这个事务无效,这一行的值是0。
    由于binlog中已经有update语句记录,之后用binlog恢复时多了一个事务,恢复出来的这一行c的值是1,与原库的值不同。

备份/扩容
使用两阶段提交,保证数据库的状态和用它的日志恢复出来的库的状态一致。扩容时可以使用全量备份加上binlog来实现。

对比
redo log的crash-safe是崩溃恢复;binlog恢复制造副本。
redo log循环使用,会被覆盖,数据不全,不能用作备份、同步等。
binlog恢复不了,WAL机制中“已经提交但是还没落盘”的数据。没有crash-safe能力。

innodb_flush_log_at_trx_commit=1;(默认值)表示每次事务提交时,redo log都直接持久化到磁盘。
innodb_flush_log_at_trx_commit=2;表示每次事务提交都写redo log文件,但是没有持久化,由系统来进行fsync操作。如果数据库宕机,不会丢失redo log;如果服务器宕机,文件系统的缓存还没同步到磁盘中的数据丢失。
redolog buffer在事务执行过程中,先把要写的内容在内存中存起来,在commit阶段,一次性写入redolog file。
commit时确保redo log持久化到磁盘。

sync_binlog=1;表示每次事务的binlog都持久化到磁盘。N表示事物提交次数。
sync_binlog=0;(默认值)由文件系统控制缓存的刷新,系统crash会丢失部分数据。