在很多領域里面,在現在這個時代下面,很多公司產生的數據太多了,數據量太大了。用原來的技術去做,有種捉襟見肘的感覺,要么在性能上面,要么在速度上面遇到了瓶頸,這個時候需要新的技術來解決,我們能想到的,比如用高并發,1M的數據單機來處理就夠了,如果1000M數據,一臺機子一個節點就可能做不了。
可能考慮集群,分布式系統。但是分布式系統是很難編寫的,要考慮的問題很多。線程,進程,網絡通信等等很多問題。業務邏輯本來很簡單,但因為考慮到分布式系統的協調問題,程序變得非常復雜,在傳統的技術上花費太大。
比如 count(),order by的業務,幾百兆Mysql可以搞定,幾十TB,Mysql和Oracle都扛不住。
-------------------------------
于是hadoop框架就出現了,就像struts因為MVC而出現一樣。
hadoop就是個框架,不是什么圣神的東西多了不起的東西,它就是個框架,為了解決一個特定領域的問題而出現,這個特定領域就是海量數據處理。
-------------------------------
hadoop不是數據庫,是很多框架組成的生態系統。
hadoop不是在數據庫里(mysql,oracle)處理,hadoop是把數據導成文本文件,或直接保存為文本文件,對文本文件進行處理
hadoop也有數據,就是NOSQL,非關系型數據。