MD5與SHA1

一、MD5

　　MD5消息摘要算法（英語：MD5 Message-Digest Algorithm），一種被廣泛使用的密碼散列函數，可以產生出一個128位（16字節）的散列值（hash value），用于確保信息傳輸完整一致。MD5由美國密碼學家羅納德·李維斯特（Ronald Linn Rivest）設計，于1992年公開，用以取代MD4算法。

　　MD5算法是不可逆的，不能通過摘要信息得到原始數據。

MD5應用

編輯

一致性驗證

MD5的典型應用是對一段信息（Message）產生信息摘要（Message-Digest），以防止被篡改。比如，在Unix下有很多軟件在下載的時候都有一個文件名相同，文件擴展名為.md5的文件，在這個文件中通常只有一行文本，大致結構如：?[1]?

MD5 (tanajiya.tar.gz) = 38b8c2c1093dd0fec383a9d9ac940515

這就是tanajiya.tar.gz文件的數字簽名。MD5將整個文件當作一個大文本信息，通過其不可逆的字符串變換算法，產生了這個唯一的MD5信息摘要。為了讓讀者朋友對MD5的應用有個直觀的認識，筆者以一個比方和一個實例來簡要描述一下其工作過程：

大家都知道，地球上任何人都有自己獨一無二的指紋，這常常成為司法機關鑒別罪犯身份最值得信賴的方法；與之類似，MD5就可以為任何文件（不管其大小、格式、數量）產生一個同樣獨一無二的“數字指紋”，如果任何人對文件做了任何改動，其MD5值也就是對應的“數字指紋”都會發生變化。

我們常常在某些軟件下載站點的某軟件信息中看到其MD5值，它的作用就在于我們可以在下載該軟件后，對下載回來的文件用專門的軟件（如Windows MD5 Check等）做一次MD5校驗，以確保我們獲得的文件與該站點提供的文件為同一文件。

具體來說文件的MD5值就像是這個文件的“數字指紋”。每個文件的MD5值是不同的，如果任何人對文件做了任何改動，其MD5值也就是對應的“數字指紋”就會發生變化。比如下載服務器針對一個文件預先提供一個MD5值，用戶下載完該文件后，用我這個算法重新計算下載文件的MD5值，通過比較這兩個值是否相同，就能判斷下載的文件是否出錯，或者說下載的文件是否被篡改了。MD5實際上一種有損壓縮技術，壓縮前文件一樣MD5值一定一樣，反之MD5值一樣并不能保證壓縮前的數據是一樣的。在密碼學上發生這樣的概率是很小的，所以MD5在密碼加密領域有一席之地。但是專業的黑客甚至普通黑客也可以利用MD5值實際是有損壓縮技術這一原理，將MD5的逆運算的值作為一張表俗稱彩虹表的散列表來破解密碼。

利用MD5算法來進行文件校驗的方案被大量應用到軟件下載站、論壇數據庫、系統文件安全等方面。

數字簽名

MD5的典型應用是對一段Message(字節串)產生fingerprint(指紋），以防止被“篡改”。舉個例子，你將一段話寫在一個叫 readme.txt文件中，并對這個readme.txt產生一個MD5的值并記錄在案，然后你可以傳播這個文件給別人，別人如果修改了文件中的任何內容，你對這個文件重新計算MD5時就會發現（兩個MD5值不相同）。如果再有一個第三方的認證機構，用MD5還可以防止文件作者的“抵賴”，這就是所謂的數字簽名應用。

安全訪問認證

MD5還廣泛用于操作系統的登陸認證上，如Unix、各類BSD系統登錄密碼、數字簽名等諸多方面。如在Unix系統中用戶的密碼是以MD5（或其它類似的算法）經Hash運算后存儲在文件系統中。當用戶登錄的時候，系統把用戶輸入的密碼進行MD5 Hash運算，然后再去和保存在文件系統中的MD5值進行比較，進而確定輸入的密碼是否正確。通過這樣的步驟，系統在并不知道用戶密碼的明碼的情況下就可以確定用戶登錄系統的合法性。這可以避免用戶的密碼被具有系統管理員權限的用戶知道。MD5將任意長度的“字節串”映射為一個128bit的大整數，并且是通過該128bit反推原始字符串是困難的，換句話說就是，即使你看到源程序和算法描述，也無法將一個MD5的值變換回原始的字符串，從數學原理上說，是因為原始的字符串有無窮多個，這有點象不存在反函數的數學函數。所以，要遇到了md5密碼的問題，比較好的辦法是：你可以用這個系統中的md5（）函數重新設一個密碼，如admin，把生成的一串密碼的Hash值覆蓋原來的Hash值就行了。

正是因為這個原因，現在被黑客使用最多的一種破譯密碼的方法就是一種被稱為"跑字典"的方法。有兩種方法得到字典，一種是日常搜集的用做密碼的字符串表，另一種是用排列組合方法生成的，先用MD5程序計算出這些字典項的MD5值，然后再用目標的MD5值在這個字典中檢索。我們假設密碼的最大長度為8位字節（8 Bytes），同時密碼只能是字母和數字，共26+26+10=62個字節，排列組合出的字典的項數則是P（62,1）+P（62,2）….+P（62,8），那也已經是一個很天文的數字了，存儲這個字典就需要TB級的磁盤陣列，而且這種方法還有一個前提，就是能獲得目標賬戶的密碼MD5值的情況下才可以。這種加密技術被廣泛的應用于Unix系統中，這也是為什么Unix系統比一般操作系統更為堅固一個重要原因。

二、SHA

概述

安全散列算法(SHA,Secure Hash)是一種常用的數據加密算法。它由美國國家標準與技術局(NIST)于1993年作為聯邦信息處理標準公布(即第一代SHA算法SHA-0)。在1995年，其改進版本SHA一1也正式公布(SHA一1具有比SHA—0更高的安全性)。SHA-1算法是目前最常用的安全散列算法和最先進的加密技術。SHA-1算法的思想是接收一段明文，然后以一種不可逆的方式將它轉換成一段(通常更小)密文，也可以簡單地理解為取一串輸入碼，把它們轉化為長度較短、位數固定的輸出序列即散列值(稱為信息摘要)的過程。該算法對長度不超過2的64次方的消息產生160位的消息摘要輸出，輸入按512位的分組進行處理。　　

SHA-1算法在加密學中扮演著極其重要的角色，可以用于實現數據保密、防止數據更改和身份驗證等功能。一個典型的應用是從數字消息、IP信息包、磁盤文件等數據抽取散列值(稱為消息摘要)，井與對稱或非對稱加密技術一起來完成對原始數據的認證和完整性檢查。另外，SHA-1算法是當今眾多流行加密思想核心，幾乎無處不在。它在許多安全協議中廣為使用，如:數字簽名標準(DSS)、傳輸層安全(TLS)、安全電子交易(SET),互聯網協議安全(IPSec)、無線局域網(WLANs)安全、隨機數生成算法和密碼存儲機制等。?[2]?

特性

SHA-1算法具有兩個重要特性：單向性和抗碰撞性。

單向性即由原始消息計算出信息摘要很容易，而由消息摘要計算出原始消息在計算上則幾乎是不可行的。

而所謂的抗碰撞性是指，要找到兩個不同的原始消息生成同一個信息摘要在計算上也是不可行的。?[2]?

算法安全性

SHA-1算法是由MDS算法演變而來的，它們之間最大的區別在于前者產生的摘要長度比后者長32bit。SHA-1對于強行攻擊，產生任何一個報文使之摘要等于給定報文摘要的難度為2160數量級的操作，較MDS的2128數量級操作要難。因此，SHA-1算法對抵抗強行攻擊的強度很高。同時，因為SHA-1算法的循環步驟有80次，比MDS算法的64次要多，所以其運行速度也較慢。

從目前密碼學研究的最新進展來看，SHA-1雖然被發現存在缺陷(碰撞)，但在近幾年內，仍然可以大量使用SHA-1算法。同時，專家們認為王小云等人發現當前所用的散列算法存在的問題，必將幫助新的散列算法設計者考慮到這方面的問題，使得新的散列算法具有更好的安全性。美國政府的大多數應用被要求在今年年底以前改用SHA-2散列函數系列，早期的應用也要盡可能地進行升級。SHA-2算法跟 SHA一1基本上相似，至今尚末出現對SHA-2算法的攻擊。

三、MD5和SHA1對比

　　由于MD5 與SHA-1均是從MD4 發展而來，它們的結構和強度等特性有很多相似之處，表（1）是對MD5 與SHA-1的結構比較。SHA-1與MD5 的最大區別在于其摘要比MD5 摘要長 32bit。對于強行攻擊，產生任何一個報文使之摘要等于給定報文摘要的難度：MD5 是2128 數量級的操作，SHA-1 是2160數量級的操作。產生具有相同摘要的兩個報文的難度：MD5是 264 是數量級的操作，SHA-1 是280 數量級的操作。因而,SHA-1對強行攻擊的強度更大。但由于SHA-1 的循環步驟比MD5 多（80:64）且要處理的緩存大（160 比特:128 比特），SHA-1的運行速度比MD5 慢