對于長字符串,可用如下方式建立索引:
(1)前綴索引
(2)字符串倒敘+前綴索引
(3)添加hash字段+并在hash字段上加索引
(4)字段拆分(一個字段可拆分為兩個以上)
假設現在表User 中存在email字段,為長字符串。如果email字段上沒有索引,那么這個語句只能做全表掃描
select f1,f2 from User where email = '1540984562@qq.com';
在email字段上創建索引
–創建的index1索引包含整個字符串
alter table User add index index1(email);
–創建的index2索引只包含字符串前6個字節
alter table User add index index2(email(6));
前綴索引占用的空間更小,但是會增加掃描的次數。
使用前綴索引,定義好長度,就可以做到既節省空間,又不額外增加太多查詢成本。
在建立索引時關注區分度,可區分度越高,意味著重復的鍵值越少
可以依次選取不同長度的前綴來看這個值,比如看4~7個字節的前綴索引:
select count(distinct left(email,4)) as L4,count(distinct left(email,5)) as L5,count(distinct left(email,6)) as L6,count(distinct left(email,7)) as L7,
from User;
前綴索引對覆蓋索引的影響
如果我們的語句是:
select id,email from User where email = ‘1540984562@qq.com’;
這個語句只要求返回id和email字段。
如果使用的整個字符串作為索引,會觸發覆蓋索引,不需要回表ID索引再查詢。
而如果使用的是前綴索引,就還得回表ID索引去獲取email字段的完整值
所以如果使用了前綴索引就相當于放棄掉了覆蓋索引對查詢性能的優化了。
使用 倒序 與 hash 構造新字段
1、倒序
如果我們對身份證號碼進行前綴索引提取,會發現,前面的號碼重復率極高。
此時可以使用倒序存儲
select field_list from t where id_card = reverse(‘input_id_card_string’);
由于身份證最后幾位的重復邏輯較小,所以最后6位很可能提供了足夠的區分度
2、hash字段
在表上再創建一個整數字段,來保存身份證的校驗碼,同時在這個字段上創建索引。
alter table t add id_card_crc int unsigned,add index(id_card_crc);
然后每次插入新紀錄的時候,都同時用crc32()這個函數得到校驗碼填到這個新字段。
由于校驗碼可能存在沖突,也就是說兩個不同的身份證號通過crc32()函數得到的結果可能相同,
所以查詢語句還要判斷id_card是否精確相同。
select field_list from t where id_card_crc = crc32('input_id_card_string') and id_card = 'input_id_card_string';
兩者異同點:
相同:
都不支持范圍查詢,只支持等值查詢
不同:
1、占用額外空間不同:
倒序存儲不會消耗額外的存儲空間。hash需要增加一個字段。
若倒序存儲使用4個字節作為前綴不夠,也會消耗額外字段
2、CPU消耗方面:
倒序每次都要調用reverse函數
hash需要調用crc32函數。reverse的時間復雜度會更小
3、查詢效率:
hash字段查詢性能相對更穩定,發生沖突概率很小,可以認為每次查詢平均掃描行數為1.
倒序存儲方式仍然使用的是前綴索引方式,還會增加掃描行數
總結: