MySQL的Redo Log跟Binlog

文章目錄

- 概要
- Redo Log日志
- - Redo Log的作用
  - Redo Log的寫入機制
- Binlog日志
- - Binlog的作用
  - Binlog寫入機制
- 兩段提交

概要

Redo Log和Binlog是MySQL日志系統中非常重要的兩種機制，也有很多相似之處，本文主要介紹兩者細節和區別。

Redo Log日志

Redo Log的作用

準備一張測試表

create table test_redo(id int primary key, c int);

假設現在要執行這樣一條sql

update test_redo set c = c + 1 where id = 1;

修改一條數據，首先是修改了Buffer Pool中該條數據所在的數據頁。假如說我們剛提交了事務，發生了某個故障，內存中的數據都失效了，就會導致所做的修改跟著丟失了。這是不能接受的。
如何避免這樣的情況發生？
一個簡單粗暴的做法是：在事務提交完成之前把該事務所修改的所有頁面都刷新到磁盤
這樣做有以下兩個問題：

刷新一個完整的數據也太浪費
比如上面只修改了一個字段，就要刷新整個頁（16KB），InnoDB是以頁為單位進行IO的，很浪費
隨機IO速度很慢
涉及到多個頁時，頁與頁之間在磁盤上可能是不連續的，隨機IO要比順序IO慢很多。

為了達到系統崩潰后，服務重啟也能恢復原來提交的事務修改的目的，同時避免出現上面提到的問題，Redo Log就是一種解決方案。

Redo Log，重做日志，其本質是記錄?下事務對數據庫做了哪些修改。

將第0號表空間的100號頁面的偏移量為1處的值更新為2

具體來說，當有一條記錄需要更新的時候，InnoDB 引擎就會先把記錄寫到 Redo Log里面，并更新內存，這個時候更新就算完成了。同時，InnoDB 引擎會在適當的時候，將這個操作記錄更新到磁盤里面。

這就是 MySQL 里經常說到的 WAL 技術，WAL 的全稱是 Write-Ahead Logging，它的關鍵點就是先寫日志，再寫磁盤。

通過事務執行過程中產生的redo日志刷新到磁盤的方式，跟前面提到的簡單粗暴的方式比較，有如下好處：

redo日志占用的空間非常少
redo日志是順序寫入磁盤的

有了 redo log，InnoDB 就可以保證即使數據庫發生異常重啟，之前提交的記錄都不會丟失，這個能力稱為crash-safe。

Redo Log的寫入機制

日志文件
InnoDB 的 redo log 是固定大小的，比如可以配置為一組 4 個文件，每個文件的大小是 1GB，那么總共就可以記錄 4GB 的操作。從頭開始寫，寫到末尾就又回到開頭循環寫，如下面這個圖所示

在這里插入圖片描述
write pos 是當前記錄的位置，一邊寫一邊后移，寫到第 3 號文件末尾后就回到 0 號文件開頭。checkpoint 是當前要擦除的位置，也是往后推移并且循環的，擦除記錄前要把記錄更新到數據文件。

write pos 和 checkpoint 之間空著的部分，可以用來記錄新的操作。如果 write pos 追上 checkpoint，表示寫滿，這時候不能再執行新的更新，把 checkpoint 推進一下。

可通過以下查詢redo log文件的數量跟大小

show variables like '%innodb_log_file%';

在這里插入圖片描述
在服務器端可看到對應的文件

redo log buffer

假如執行如下sql

begin;
insert into t1 ...
insert into t2 ...
commit;

這個事務要往兩個表中插入記錄，插入數據的過程中，還沒有執行 commit 的時候，就是是不能直接寫到 redo log 文件里的。這時候回顯記錄在redo log buffer
redo log buffer 就是一塊內存，用來先存 redo 日志。也就是說，在執行第一個 insert 的時候，數據的發生了修改，redo log buffer 也寫入了日志。但是，真正把日志寫到 redo log 文件（文件名是 ib_logfile+ 數字），是在執行 commit 語句的時候做的。

單獨執行一個更新語句的時候，InnoDB 會自己啟動一個事務，在語句執行完成的時候提交。過程跟上面是一樣的。

redo log buffer是什么時候持久化到Redo Log中的呢？有如下3種策略，可通過innodb_flush_log_at_trx_commit進行配置。它有3種取值：

設置為 0 的時候，表示每次事務提交時都只是把 redo log 留在 redo log buffer 中，由后臺線程每隔1s執行一次刷盤操作 ;
設置為 1 的時候（默認值），表示每次事務提交時都將 redo log 直接持久化到磁盤；
設置為 2 的時候，表示每次事務提交時都只是把 redo log 寫到 OS cache，然后由后臺Master線程再每隔1秒執行OS
cache -> flush cache to disk 的操作。

在這里插入圖片描述

一般建議選擇取值2，因為 MySQL 掛了數據沒有損失，整個服務器掛了才會損失1秒的事務提交數據。設置為1時最為安全，但是性能也是最差。

Binlog日志

Binlog的作用

Redo Log 是屬于InnoDB引擎所特有的日志，而MySQL Server層也有自己的日志，即 Binary log（二進制日志），簡稱Binlog。Binlog是記錄所有數據庫表結構變更以及表數據修改的二進制日志，不會記錄SELECT和SHOW這類操作。Binlog日志是以事件形式記錄，還包含語句所執行的消耗時間。

最開始 MySQL 里并沒有 InnoDB 引擎。MySQL 自帶的引擎是 MyISAM，但是 MyISAM 沒有 crash-safe 的能力，binlog 日志只能用于歸檔。而 InnoDB 是另一個公司以插件形式引入 MySQL 的，既然只依靠 binlog 是沒有 crash-safe 能力的，所以 InnoDB 使用另外一套日志系統——也就是 redo log 來實現 crash-safe 能力。

Binlog日志有以下兩個最重要的應用場景：

主從復制：在主庫中開啟Binlog功能，這樣主庫就可以把Binlog傳遞給從庫，從庫拿到Binlog后實現數據恢復達到主從數據一致性。
數據恢復：通過mysqlbinlog工具來恢復數據

Binlog日志文件記錄模式有STATEMENT、ROW和MIXED三種，具體含義如下。

ROW（row-based replication, RBR）：日志中會記錄每一行數據被修改的情況，然后在slave端對相同的數據進行修改。
優點：能清楚記錄每一個行數據的修改細節，能完全實現主從數據同步和數據的恢復。
缺點：批量操作，會產生大量的日志，尤其是alter table會讓日志暴漲。
STATMENT（statement-based replication, SBR）：每一條被修改數據的SQL都會記錄到master的Binlog中，slave在復制的時候SQL進程會解析成和原來master端執行過的相同的SQL再次執行。簡稱SQL語句復制。
優點：日志量小，減少磁盤IO，提升存儲和恢復速度
缺點：在某些情況下會導致主從數據不一致，比如last_insert_id()、now()等函數。
MIXED（mixed-based replication, MBR）：以上兩種模式的混合使用，一般會使用STATEMENT模式保存binlog，對于STATEMENT模式無法復制的操作使用ROW模式保存binlog，MySQL會根據執行的SQL語句選擇寫入模式。

可通過以下sql查看Binlog信息

show variables like '%log_bin%';
show variables like '%binlog%';

格式查看

mysql> show variables like 'binlog_format';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| binlog_format | ROW   |
+---------------+-------+
1 row in set (0.00 sec)

Biglog文件格式

MySQL的binlog文件中記錄的是對數據庫的各種修改操作，用來表示修改操作的數據結構是Log event。不同的修改操作對應的不同的log event。比較常用的log event有：Query event、Row event、Xid event等。binlog文件的內容就是各種Log event的集合。
Binlog文件中Log event結構如下圖所示：

在這里插入圖片描述

查看當前的二進制日志文件列表及大小。指令如下：

mysql> SHOW BINARY LOGS;
+---------------+-----------+-----------+
| Log_name      | File_size | Encrypted |
+---------------+-----------+-----------+
| binlog.000004 |    712684 | No        |
| binlog.000005 |       179 | No        |
| binlog.000006 |       179 | No        |
| binlog.000007 |   3412930 | No        |
+---------------+-----------+-----------+
4 rows in set (0.00 sec)

查看具體的文件
語法：show binlog events [IN 'log_name'] [FROM pos] [LIMIT [offset,] row_count];

-- 文件內容太多了 這里限制了從 pos 156開始查看 限制5條
mysql> show binlog events in 'binlog.000004' from 156 limit 5 \G;
*************************** 1. row ***************************Log_name: binlog.000004Pos: 156Event_type: Anonymous_GtidServer_id: 1
End_log_pos: 235Info: SET @@SESSION.GTID_NEXT= 'ANONYMOUS'
*************************** 2. row ***************************Log_name: binlog.000004Pos: 235Event_type: QueryServer_id: 1
End_log_pos: 317Info: BEGIN
*************************** 3. row ***************************Log_name: binlog.000004Pos: 317Event_type: Table_mapServer_id: 1
End_log_pos: 402Info: table_id: 92 (small_admin.QRTZ_CRON_TRIGGERS)
*************************** 4. row ***************************Log_name: binlog.000004Pos: 402Event_type: Delete_rowsServer_id: 1
End_log_pos: 502Info: table_id: 92 flags: STMT_END_F
*************************** 5. row ***************************Log_name: binlog.000004Pos: 502Event_type: XidServer_id: 1
End_log_pos: 533Info: COMMIT /* xid=392 */
5 rows in set (0.00 sec)

binlog是二進制文件，無法直接查看，借助mysqlbinlog命令工具了，可以查看其中的內容

# mysqlbinlog使用語法 
[root@node1 data]# mysqlbinlog --no-defaults --help

查看文件

mysqlbinlog --no-defaults --base64-output=decode-rows -vv binlog.000004 |tail -100

Binlog寫入機制

事務執行過程中，先把日志寫到 binlog cache，事務提交的時候，再把 binlog cache 寫到 binlog 文件中。

一個事務的 binlog 是不能被拆開的，因此不論這個事務多大，也要確保一次性寫入。這就涉及到了 binlog cache 的保存問題。

系統給 binlog cache 分配了一片內存，每個線程一個，參數 binlog_cache_size 用于控制單個線程內 binlog cache 所占內存的大小。如果超過了這個參數規定的大小，就要暫存到磁盤。

事務提交的時候，執行器把 binlog cache 里的完整事務寫入到 binlog 中，并清空 binlog cache。

在這里插入圖片描述

write 和 fsync 的時機，是由參數 sync_binlog 控制的：

sync_binlog=0 的時候，表示每次提交事務都只 write，不 fsync；
sync_binlog=1 的時候，表示每次提交事務都會執行 fsync；
sync_binlog=N(N>1) 的時候，表示每次提交事務都 write，但累積 N 個事務后才 fsync。

因此，在出現 IO 瓶頸的場景里，將 sync_binlog 設置成一個比較大的值，可以提升性能。在實際的業務場景中，考慮到丟失日志量的可控性，一般不建議將這個參數設成 0，比較常見的是將其設置為 100~1000 中的某個數值。

但是，將 sync_binlog 設置為 N，對應的風險是：如果主機發生異常重啟，會丟失最近 N 個事務的 binlog 日志。

兩段提交

結合redo log 跟bin log ，執行update test_redo set c = c + 1 where id = 1 這條語句的大致過程如下：

執行器先找引擎取 id=1 這一行。id 是主鍵，引擎直接用樹搜索找到這一行。如果 id=1 這一行所在的數據頁本來就在內存中，就直接返回給執行器；否則，需要先從磁盤讀入內存，然后再返回。
執行器拿到引擎給的行數據，把c的值加 1，比如原來是 N，現在就是 N+1，得到新的一行數據，再調用引擎接口寫入這行新數據。
引擎將這行新數據更新到內存中，同時將這個更新操作記錄到 redo log 里面，此時 redo log 處于 prepare 狀態。然后告知執行器執行完成了，隨時可以提交事務。
執行器生成這個操作的 binlog，并把 binlog 寫入磁盤。
執行器調用引擎的提交事務接口，引擎把剛剛寫入的 redo log 改成提交（commit）狀態，更新完成。

在這里插入圖片描述

Q：為什么需要兩段提交？

A：用上面的更新語句作為例子
如果不用兩階段提交，要么就是先寫完 redo log 再寫 binlog，或者是先寫binlog再寫redo log，下面對這兩種情況討論

先寫 redo log 后寫 binlog。假設在 redo log 寫完，binlog 還沒有寫完時MySQL 進程異常重啟。由于redo log 寫完后，系統即使崩潰，仍然能夠把數據恢復回來，所以恢復后這一行 c 的值是 1。但是由于 binlog 沒寫完， binlog 里面就沒有記錄這條語句。因此，之后備份日志的時候用這個 binlog 來恢復臨時庫的話，就會與原庫的值有差異。
先寫 binlog 后寫 redo log。如果在 binlog 寫完之后 crash，由于 redo log 還沒寫，崩潰恢復以后這個事務無效，所以這一行 c 的值是 0。但是 binlog 里面已經記錄了“把 c 從 0 改成 1”這個日志。在之后用 binlog 來恢復的時候就會與原庫有差異。

Q：上圖中，如果在時刻A，也就是寫入 redo log 處于 prepare 階段之后、寫 binlog 之前，發生了奔潰呢？
A：由于此時 binlog 還沒寫，redo log 也還沒提交，所以崩潰恢復的時候，這個事務會回滾。這時候，binlog 還沒寫，所以也不會傳到備庫

Q：如果在B時刻，也就是 binlog 寫完，redo log 還沒 commit 前發生 crash，那崩潰恢復的時候 MySQL 會怎么處理？
A：崩潰恢復時的判斷如下

如果 redo log 里面的事務是完整的，也就是已經有了 commit 標識，則直接提交；
如果 redo log 里面的事務只有完整的 prepare，則判斷對應的事務 binlog 是否存在并完整： a. 如果是，則提交事務； b. 否則，回滾事務。

Q：redo log 和 binlog 是怎么關聯起來的?
A：它們有一個共同的數據字段，叫 XID。崩潰恢復的時候，會按順序掃描 redo log：
如果碰到既有 prepare、又有 commit 的 redo log，就直接提交；
如果碰到只有 parepare、而沒有 commit 的 redo log，就拿著 XID 去 binlog 找對應的事務。