大數據概述

學習大數據有什么用?

2010年:大數據技術體系開始在國內火熱

2015年:國務院印發《促進大數據發展行動綱要》

2016年:發改委發布關于組織實施促進大數據發展重大工程的通知

2017年:工信部印發大數據產業規劃(2016-2020)

2020年:國務院指示十四五規劃大數據重點發展

2022年:國務院印發十四五數字經濟發展規劃

由此可見,國家對于大數據越來越重視。同時,伴隨著信息全球化的發展,大數據也成為了很多行業的基礎。我們隨時隨地都在創造數據。

數據是什么?

數據與信息不同

數據:一種可以被鑒別的對客觀事件進行記錄的符號。

常見的數據類型:文本,圖片,音頻,視頻等。

信息:與數據不同的概念,信息是較為宏觀的概念,它由數據的有序排列組合而成,傳達給讀者某個概念方法等,而數據則是構成信息的基本單位。離散的數據沒有任何實用價值。

數據的組織形式和生命周期

計算機系統中的數據組織形式主要有兩種,即文件和數據庫。

文件:計算機系統中的很多數據都是以文件形式存在的,例如:WORD文件、一個文本文件、一個網頁文件、一個圖片文件等等。

數據庫:數據庫是結構化信息或數據的有序集合,一般以電子形式存儲在計算機系統中。通常由數據庫管理系統 (DBMS) 來控制。

數據生命周期:是指數據從創建->修改->發布利用->歸檔/銷毀的整個過程。

  • 對數據進行自動分類,分離出有效的數據,對不同類型數據制定不同的管理策略,并及時清理無用的數據。
  • 構建分層的存儲系統,滿足不同類型的數據對不同生命周期階段的存儲要求,對關鍵數據進行數據備份保護,對處于生命周期末期的數據進行歸檔并保存到適合長期保存數據的存儲設備中。
  • 根據不同數據管理策略,實施自動分層數據管理,即自動把不同生命周期階段的數據存放在最合適的存儲設備上,提高數據可用性和管理效率。

數據如何轉化為信息

  • 一致性檢查:根據每個變量的合理取值范圍相互關系,檢查數據是否合乎要求,發現超出正常范圍、邏輯上不合理或者相互矛盾的數據。
  • 無效值和缺失值的處理:由于調查、編碼和錄入誤差,數據中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有:估算整例刪除變量刪除成對刪除
  • 數據管理:利用計算機硬件和軟件技術對數據進行有效的收集、存儲、處理和應用的過程。其目的在于充分有效地發揮數據的作用。實現數據有效管理的關鍵是數據組織
  • 數據分析:把隱藏在一大批看來雜亂無章的數據中的信息集中和提煉出來,從而找出所研究對象的內在規律。在實際應用中,數據分析可幫助人們做出判斷,以便采取適當行動。數據分析是有組織有目的地收集數據、分析數據,使數據成為信息的過程。

數據的價值

  • 數據的價值在于可以為人們找出答案。
  • 數據的價值不會因為不斷被使用而削減,反而會因為不斷重組而產生更大的價值。
  • 各類收集來的數據都應當被盡可能長時間地保存下來,同時也應當在一定條件下與全社會分享,并產生價值。
  • 數據已經具備資本的屬性,可以用來創造經濟價值。

大數據具有哪些特性?

數據層面:大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、警理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

技術層面:大數據(技術)使用分布式技術完成海量數據的處理,以得到數據背后蘊含的價值。

大數據5V性質

Volume(體積):采集數據量大,存儲數據量大,計算數據量大,TB、PB級別起步。

Variety(種類):結構化、半結構化、非結構化 日志、文本、圖片、音頻、視頻。

Value(價值):數據海量但是價值密度低,深度復雜的挖掘分析需要機器學習參與。

Velocity(速度):數據增長速度快,獲取數據速度快,數據處理速度快。

Veracity(質量):數據的準確性,數據的可信賴度。

大數據是如何產生的?

數據的生產方式

  • 運營式系統階段:

數據庫的出現使得數管理的復雜度降低,數據往往伴隨著一定的運營活動而產生并記錄在數據庫中。 在此階段,數據被動產生。

  • 用戶原創內容階段:

數據爆發產生于Web 2.0 時代,而Web 2.0 的最重要標志就是用戶原創內容。 在此階段,數據主動產生。

  • 感知式系統階段:

感知式系統的廣泛應用最終導致了大數據的產生。 在此階段,數據自動產生。

信息化浪潮

  • 第一次浪潮:1980前后,個人計算機處理信息。
  • 第二次浪潮:1995前后,互聯網傳輸信息。
  • 第三次浪潮:2010前后,物聯網、云計算和大數據讓信息爆炸。

大數據帶來了哪些影響?

正面影響——科學研究

圖靈獎獲得者、著名數據庫專家Jim Gray 博士觀察并總結:人類自古以來,在科學研究上,先后歷經了實驗、理論、計算和數據四種范式。

雖然計算科學和數據密集型科學都是利用計算機來進行計算,但是二者的本質區別在于:計算科學先提出可能的理論,再搜集數據,然后通過計算來驗證;數據密集型科學先有了大量已知的數據,然后通過計算得到之前未知的理論。

正面影響——社會發展

  • 大數據決策逐漸成為一種新的決策方式。
  • 大數據成為提升國家治理能力的新途徑。
  • 大數據應用有力促進了信息技術與各行業的深度融合。
  • 大數據開發大大推動了新技術和新應用的不斷涌現。

正面影響——就業市場

大數據的興起使得數據科學家成為熱門職業。

正面影響——人才培養

  • 一是計算機技術相關人才,包括平臺搭建和應用開發。 ?
  • 二是統計學相關人才,包括數學、建模、算法。
  • ?三是業務人才,就是要有一定的專業領域知識,只有明白目標領域知識的人,才能了解數據的意義以及指導數據分析的方向并判斷數據分析結果的可信性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/716498.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/716498.shtml
英文地址,請注明出處:http://en.pswp.cn/news/716498.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux運維_Bash腳本_構建安裝Meson-1.0.1和Ninja-1.11.1

Linux運維_Bash腳本_構建安裝Meson-1.0.1和Ninja-1.11.1 Bash (Bourne Again Shell) 是一個解釋器,負責處理 Unix 系統命令行上的命令。它是由 Brian Fox 編寫的免費軟件,并于 1989 年發布的免費軟件,作為 Sh (Bourne Shell) 的替代品。 您…

Nginx高級技巧:實現負載均衡和反向代理

文章目錄 Nginx概述Nginx作用正向代理反向代理負載均衡動靜分離 Nginx的安裝 -->Docker3.1 安裝Nginx3.2 Nginx的配置文件3.3 修改docker-compose文件 Nginx源碼安裝nginx常用命令nginx配置文件配置文件位置配置文件結構詳情 Nginx的反向代理【重點】基于Nginx實現反向代理4…

C語言冒泡排序(高級版)

目錄: 冒泡排序的原理 主函數 "冒泡排序函數" 比較函數 交換函數 最終輸出 完整代碼 冒泡排序的原理: 冒泡排序的原理是:從左到右,相鄰元素進行比較。每次比較一輪,就會找到序列中最大的一個或最小的一個。這個數就會從序列的最右…

Windows上構建一個和Linux類似的Terminal

preview 目的是在Windows上構建一個和Linux類似的Terminal,讓Windows煉丹和Linux一樣舒適,同是讓Terminal取代Xshell完成遠程鏈接。 預覽如下圖 在Linux下我們使用zsh和oh-my-zsh結合,Windows下我們使用powershell7和oh-my-posh結合。 前提…

Vue 前端開發 v-for和v-if兩個指令不能混合使用

原由: 在進行項目開發的時候因為在一個標簽上同時使用了v-for和v-if兩個指令導致的報錯。 提示錯誤:The undefined variable inside v-for directive should be replaced with a computed property that returns filtered array instead. You should no…

nginx------------緩存功能 ip透傳 負載均衡 (六)

一、http 協議反向代理 (一)反向代理示例:緩存功能 緩存功能可以加速訪問,如果沒有緩存關閉后端服務器后,圖片將無法訪問,緩存功能默認關閉,需要開啟。 ? proxy_cache zone_name | off; 默認off #指明調…

基于Springboot純凈水配送和商城系統設計與實現 開題報告參考

博主介紹:黃菊華老師《Vue.js入門與商城開發實戰》《微信小程序商城開發》圖書作者,CSDN博客專家,在線教育專家,CSDN鉆石講師;專注大學生畢業設計教育和輔導。 所有項目都配有從入門到精通的基礎知識視頻課程&#xff…

2023 版王道單科書勘誤匯總(3.30)

注:因2023版對題目編號做了優化“歷年真題全部放最后、且按年份排序”,以方便大家根據需要保留某些年份的真題作為最后的模擬。所以造成了一些題目和解析的編號錯誤。 數據結構: P11 P20 P56 P278 P326 “2.”中第 3 行”題 5改成”9”,第6行”題 8”改成…

css3詳解

一.什么是CSS3 CSS3是Cascading Style Sheets的第三個版本,是一種用于描述文檔樣式的語言(CSS3是CSS(層疊樣式表)技術的升級版本)。它是前端開發中用于控制網頁布局和樣式的技術之一。CSS3引入了許多新的特性和功能&a…

Linux常用操作命令大全

Linux常用操作命令大全 Linux,作為一款開源的操作系統,深受全世界開發者和系統管理員的喜愛。在Linux環境下,用戶通過命令行界面可以執行各種操作,從而實現對系統的全面控制。本文將詳細介紹Linux中常用的操作命令,幫助讀者更好地理解和運用這些命令。 一、文件操作命令…

hexo圖片顯示不出且圖片路徑錯誤/.com//

參考博客: hexo 圖片顯示問題及使用typora設置圖片路徑-CSDN博客 javascript - hexo 圖片路徑錯誤/.com// - SegmentFault 思否 先說如何讓hexo圖片成功地顯示出來 Step1: 修改config設置 將 _config.yml 設置文件中的 post_asset_folder 修改為 true 這一步的作…

平衡二叉樹,二叉樹的路徑,左葉子之和

第六章 二叉樹part04 今日內容: 110.平衡二叉樹 257. 二叉樹的所有路徑 404.左葉子之和 110.平衡二叉樹 (優先掌握遞歸) 給定一個二叉樹,判斷它是否是高度平衡的二叉樹。 本題中,一棵高度平衡二叉樹定義為&am…

【不可不知的考研復試秘籍 1】

----------------------------------------------------------------------------------------------------- 考研復試科研背景提升班 教你快速深入了解掌握考研復試面試中的常見問題以及注意事項,系統的教你如何在短期內快速提升自己的專業知識水平和編程以及英語…

windows下安裝cnpm

cnpm是淘寶團隊開發的一個針對中國用戶的npm鏡像源,它是npm的一個定制版本。由于國外的npm源在國內訪問速度較慢,所以cnpm鏡像源可以提供更快的下載速度。cnpm的使用方式與npm基本相同,只需將npm替換為cnpm即可。 要想使用cnpm等先安裝node.…

反序列化逃逸 [安洵杯 2019]easy_serialize_php1

打開題目 題目源碼&#xff1a; <?php$function $_GET[f];function filter($img){$filter_arr array(php,flag,php5,php4,fl1g);$filter /.implode(|,$filter_arr)./i;return preg_replace($filter,,$img); }if($_SESSION){unset($_SESSION); }$_SESSION["user&qu…

每日一題 KY148還是暢通工程

某省調查鄉村交通狀況&#xff0c;得到的統計表中列出了任意兩村莊間的距離。省政府“暢通工程”的目標是使全省任何兩個村莊間都可以實現公路交通&#xff08;但不一定有直接的公路相連&#xff0c;只要能間接通過公路可達即可&#xff09;&#xff0c;并要求鋪設的公路總長度…

PostgreSQL對已有表增加自增序列

對已有表增加自增序列&#xff1a; 1、在PostgreSQL當中&#xff0c;我們要實現對已有表的ID字段自增。 首先需創建一個關聯序列&#xff0c;以下sql語句是創建一個序列&#xff1a; CREATE SEQUENCE menu_id_seq START 6000001; 序列名稱是menu_id_seq&#xff0c;起始…

sizeof 和 strlen的區別

sizeof sizeof是單目操作符,sizeof計算變量所棧內存空間大小,單位是字節,如果操作數是類型的話,會計算類型所占大小,sizeof指在乎占用內存空間大小不在乎內容是什么. int main() {int a 0;printf("%zd\n", sizeof(a));printf("%zd\n", sizeof a );printf…

巧【二叉搜索樹的最近公共祖先】【二叉搜索樹的性質】Leetcode 235. 二叉搜索樹的最近公共祖先

【二叉搜索樹的最近公共祖先】【二叉搜索樹性質】Leetcode 235. 二叉搜索樹的最近公共祖先 【巧】解法1 利用二叉搜索樹有序的性質解法2 采用二叉樹求最近公共祖先的方法——后序遍歷 ---------------&#x1f388;&#x1f388;235. 二叉搜索樹的最近公共祖先 題目鏈接&#x…

huggingface上傳或發布自己的模型(大語言模型LLM)

創建huggingface賬號和token 在https://huggingface.co/join注冊huggingface賬號&#xff0c;登錄賬號后&#xff0c;在https://huggingface.co/settings/tokens創建token&#xff0c;注意需要將token的類型設置為WRITE。 安裝必要軟件包和初始化環境 安裝git lfs curl -s …