學習大數據有什么用?
2010年:大數據技術體系開始在國內火熱
2015年:國務院印發《促進大數據發展行動綱要》
2016年:發改委發布關于組織實施促進大數據發展重大工程的通知
2017年:工信部印發大數據產業規劃(2016-2020)
2020年:國務院指示十四五規劃大數據重點發展
2022年:國務院印發十四五數字經濟發展規劃
由此可見,國家對于大數據越來越重視。同時,伴隨著信息全球化的發展,大數據也成為了很多行業的基礎。我們隨時隨地都在創造數據。
數據是什么?
數據與信息不同
數據:一種可以被鑒別的對客觀事件進行記錄的符號。
常見的數據類型:文本,圖片,音頻,視頻等。
信息:與數據不同的概念,信息是較為宏觀的概念,它由數據的有序排列組合而成,傳達給讀者某個概念方法等,而數據則是構成信息的基本單位。離散的數據沒有任何實用價值。
數據的組織形式和生命周期
計算機系統中的數據組織形式主要有兩種,即文件和數據庫。
文件:計算機系統中的很多數據都是以文件形式存在的,例如:WORD文件、一個文本文件、一個網頁文件、一個圖片文件等等。
數據庫:數據庫是結構化信息或數據的有序集合,一般以電子形式存儲在計算機系統中。通常由數據庫管理系統 (DBMS) 來控制。
數據生命周期:是指數據從創建->修改->發布利用->歸檔/銷毀的整個過程。
- 對數據進行自動分類,分離出有效的數據,對不同類型數據制定不同的管理策略,并及時清理無用的數據。
- 構建分層的存儲系統,滿足不同類型的數據對不同生命周期階段的存儲要求,對關鍵數據進行數據備份保護,對處于生命周期末期的數據進行歸檔并保存到適合長期保存數據的存儲設備中。
- 根據不同數據管理策略,實施自動分層數據管理,即自動把不同生命周期階段的數據存放在最合適的存儲設備上,提高數據可用性和管理效率。
數據如何轉化為信息
- 一致性檢查:根據每個變量的合理取值范圍和相互關系,檢查數據是否合乎要求,發現超出正常范圍、邏輯上不合理或者相互矛盾的數據。
- 無效值和缺失值的處理:由于調查、編碼和錄入誤差,數據中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有:估算,整例刪除,變量刪除和成對刪除。
- 數據管理:利用計算機硬件和軟件技術對數據進行有效的收集、存儲、處理和應用的過程。其目的在于充分有效地發揮數據的作用。實現數據有效管理的關鍵是數據組織。
- 數據分析:把隱藏在一大批看來雜亂無章的數據中的信息集中和提煉出來,從而找出所研究對象的內在規律。在實際應用中,數據分析可幫助人們做出判斷,以便采取適當行動。數據分析是有組織有目的地收集數據、分析數據,使數據成為信息的過程。
數據的價值
- 數據的價值在于可以為人們找出答案。
- 數據的價值不會因為不斷被使用而削減,反而會因為不斷重組而產生更大的價值。
- 各類收集來的數據都應當被盡可能長時間地保存下來,同時也應當在一定條件下與全社會分享,并產生價值。
- 數據已經具備資本的屬性,可以用來創造經濟價值。
大數據具有哪些特性?
數據層面:大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、警理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
技術層面:大數據(技術)使用分布式技術完成海量數據的處理,以得到數據背后蘊含的價值。
大數據5V性質
Volume(體積):采集數據量大,存儲數據量大,計算數據量大,TB、PB級別起步。
Variety(種類):結構化、半結構化、非結構化 日志、文本、圖片、音頻、視頻。
Value(價值):數據海量但是價值密度低,深度復雜的挖掘分析需要機器學習參與。
Velocity(速度):數據增長速度快,獲取數據速度快,數據處理速度快。
Veracity(質量):數據的準確性,數據的可信賴度。
大數據是如何產生的?
數據的生產方式
- 運營式系統階段:
數據庫的出現使得數管理的復雜度降低,數據往往伴隨著一定的運營活動而產生并記錄在數據庫中。 在此階段,數據被動產生。
- 用戶原創內容階段:
數據爆發產生于Web 2.0 時代,而Web 2.0 的最重要標志就是用戶原創內容。 在此階段,數據主動產生。
- 感知式系統階段:
感知式系統的廣泛應用最終導致了大數據的產生。 在此階段,數據自動產生。
信息化浪潮
- 第一次浪潮:1980前后,個人計算機處理信息。
- 第二次浪潮:1995前后,互聯網傳輸信息。
- 第三次浪潮:2010前后,物聯網、云計算和大數據讓信息爆炸。
大數據帶來了哪些影響?
正面影響——科學研究
圖靈獎獲得者、著名數據庫專家Jim Gray 博士觀察并總結:人類自古以來,在科學研究上,先后歷經了實驗、理論、計算和數據四種范式。
雖然計算科學和數據密集型科學都是利用計算機來進行計算,但是二者的本質區別在于:計算科學先提出可能的理論,再搜集數據,然后通過計算來驗證;數據密集型科學先有了大量已知的數據,然后通過計算得到之前未知的理論。
正面影響——社會發展
- 大數據決策逐漸成為一種新的決策方式。
- 大數據成為提升國家治理能力的新途徑。
- 大數據應用有力促進了信息技術與各行業的深度融合。
- 大數據開發大大推動了新技術和新應用的不斷涌現。
正面影響——就業市場
大數據的興起使得數據科學家成為熱門職業。
正面影響——人才培養
- 一是計算機技術相關人才,包括平臺搭建和應用開發。 ?
- 二是統計學相關人才,包括數學、建模、算法。
- ?三是業務人才,就是要有一定的專業領域知識,只有明白目標領域知識的人,才能了解數據的意義以及指導數據分析的方向并判斷數據分析結果的可信性。