mysql重復記錄大于十的數據庫_面試官：在使用mysql數據庫時，遇到重復數據怎么處理？...

前言

前段時間，很多人問我能不能寫一些數據庫的文章，正好自己在測試mysql數據庫性能的時候，出現了一個問題，也就是出現了很多重復的數據，想起來自己long long ago寫過一篇類似的，僅此就拿來總結了一下。如果你在使用mysql的時候也遇到了這個問題，希望能對你有所幫助。

注意：

這篇文章不是數據庫系列的正式文章，有關mysql、MongoDB、redis、oracle等數據庫系列的文章正在整理中。

其實解決能否插入重復數據的問題，一般情況下是有兩個思路，就像治水一樣，第一個就是從源頭，第二個就是在水流經的路上。我們帶著這兩種思路繼續往下看：

問題

在我們的mysql數據庫中，經常會出現一些重復的數據，有些情況我們允許重復數據的存在，但有時候我們也需要刪除這些重復的數據。我們如何去處理呢？

方法一：防止出現重復數據

也就是說我們再設計表的時候，就應該對這些數據設置一個UNIQUE 索引，在插入的時候就可以保證其唯一性，也就不存在有重復的數據了。當然你也可以直接設置為PRIMARY KEY(主鍵)。效果也是一樣的。

我們看一個案例：下表中無索引及主鍵，所以該表允許出現多條重復記錄。

CREATE TABLE student

(

first_name CHAR(20),

last_name CHAR(20),

sex CHAR(10)

);

目前first_name，last_name是可以重復的，如果不想重復這里有兩個解決辦法：

1、設置雙主鍵模式

CREATE TABLE student

(

first_name CHAR(20) NOT NULL,

last_name CHAR(20) NOT NULL,

sex CHAR(10),

PRIMARY KEY (last_name, first_name)

);

現在就無法插入重復數據了。

2、添加unique索引

CREATE TABLE student

(

first_name CHAR(20) NOT NULL,

last_name CHAR(20) NOT NULL,

sex CHAR(10)

UNIQUE (last_name, first_name)

);

這兩種看起來形式好像有一點區別，但是能起到相同的作用。此時我們可以插入兩條重復的數據，會發現報錯。

當然我們還可以在數據庫中去驗證一下：

SELECT COUNT(*) as repetitions, last_name, first_name

FROM student

GROUP BY last_name, first_name

HAVING repetitions > 1;

在這里我們統計的是 first_name 和 last_name的重復記錄數，上面已經用兩種方法設置了，這里肯定就是0了。

方法二：在插入時指定能否插入重復數據

在這里我們使用的是Insert ignore into 與Insert into指令。

(1)Insert ignore into會忽略數據庫中已經存在的數據，如果數據庫沒有數據，就插入新的數據，如果有數據的話就跳過這條數據。這樣就可以保留數據庫中已經存在數據，達到在間隙中插入數據的目的。

(2)Insert into則直接相反，會直接插入數據，不管數據庫里面是否含有重復數據。

我們還是舉例說明：

insert ignore into student (last_name, first_name) values ( '張三', '李四');

//結果

Query OK, 1 rows affected (0.00 sec)

insert ignore into student (last_name, first_name) values ( '張三', '李四');

//結果

Query OK, 0 rows affected (0.00 sec)

現在我們看出來了吧，也就是說在執行第一條插入操作的時候，看到數據庫沒有，則直接插入一條新紀錄，因此一行記錄受到影響，但是在第二次插入的時候，數據庫已經有一條一樣的了，因此便不會插入了，0行受到影響。

當然了還有一個指令也可以完成類似于insert ignore into相似的功能，那就是replace into。他表示的是如果存在primary 或 unique相同的記錄，則先刪除掉。再插入新記錄。

方法三：過濾重復數據

如果你需要讀取不重復的數據可以在 SELECT 語句中使用 DISTINCT 關鍵字來過濾重復數據。

SELECT DISTINCT last_name, first_name

FROM student

ORDER BY last_name;

你也可以使用 GROUP BY 來讀取數據表中不重復的數據：

SELECT last_name, first_name

FROM student

GROUP BY (last_name, first_name);

方法四：刪除重復數據

這種情況其實就相當于，在水的終點處去解決。看下面sql語句：

//根據student創建一個臨時表，并使用group by過濾了重復數據

CREATE TABLE tmp SELECT last_name, first_name, sex

FROM student;

GROUP BY (last_name, first_name);

//刪除原student表

DROP TABLE student;

//給這個臨時表重新命名

ALTER TABLE tmp RENAME TO stu;

當然你也可以在數據表中添加 INDEX(索引) 和 PRIMAY KEY(主鍵)這種簡單的方法來刪除表中的重復記錄。方法如下：

ALTER IGNORE TABLE student

ADD PRIMARY KEY (last_name, first_name);

OK，解決辦法這么多，相信能解決你的問題。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/530342.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/530342.shtml
英文地址，請注明出處：http://en.pswp.cn/news/530342.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！