第1章 數據分析簡介
1.1 數據分析
-
當今世界對信息技術依賴日深,每天產生和存儲海量數據,來源于自動檢測系統、傳感器、科學儀器,以及銀行取錢、買東西、寫博客、發微博等日常行為。
-
數據與信息在形式上不同:數據是無形式可言的字節流,難理解其本質;信息是對數據集處理后提煉出的可用于其他場合的結論。
-
從原始數據中抽取信息的這個過程叫作數據分析。
-
數據分析目的:抽取不易推斷的信息,一旦理解信息,可研究數據產生系統的運行機制,對系統可能響應和演變作出預測。
-
發展歷程:數據分析最初用作數據保護,現已發展成為數據建模的方法論,蛻變為一門真正學科。
-
模型:將所研究系統轉化為數學形式,一旦建立數學或邏輯模型,可預測在給定輸入下系統的輸出,精度不同。
-
數據分析目標:不止于建模,更重要的是其預測能力。
-
預測能力:取決于建模技術質量及選擇優質數據集的能力。
-
預處理工作:數據搜尋、數據提取、數據準備等屬于數據分析范疇,對最終結果有重要影響。
-
數據可視化:在數據分析各階段,有各種數據可視化方法。理解數據的最好方法莫過于將其做成可視化圖形,傳達數字中蘊含(有時隱藏)的信息。已有多種可視化模式(類型多樣的圖表)。
-
數據分析產出:模型和圖形化展示,據此可預測所研究系統的響應。
-
測試階段:用已知輸出結果的數據集對模型進行測試,數據不用于生成模型,而是檢驗系統能否重現實際觀察到的輸出,掌握模型誤差,了解其有效性和局限。
-
部署:新模型勝出后進行,根據模型預測結果實現相應決策,同時防范模型預測到的潛在風險。
-
意義:了解數據分析及實際操作方法,對工作中做出可靠決策有益,可檢驗假說,加深對系統理解。
1.2 數據分析師的知識范疇
-
數據分析學科研究問題面廣,數據分析過程用到多種工具和方法,對計算、數學和統計思維要求高。
-
優秀的數據分析師必須具備多個學科的知識和實際應用能力,熟練掌握作為數據分析方法基礎的學科很有必要。
-
根據應用領域和研究項目,分析師可能需掌握其他相關學科知識,以更好地理解研究對象及所需數據。
-
大型項目:最好組建由相關領域專家組成的團隊,各盡其能。
-
小型項目:優秀分析師可勝任,但需善于識別問題,了解解決問題所需學科知識和技能,及時學習,或向專家請教。
-
簡言之:分析師不僅要知道怎么搜尋數據,更應懂得怎么尋找處理數據的方法。
1.2.1 計算機科學
-
從事任何領域數據分析工作,掌握計算機科學知識是基本要求,具備良好知識及實踐經驗才能熟練掌握數據分析必備工具。
-
數據分析各步驟離不開計算機技術,如計算軟件(IDL、Matlab等)和編程語言(C++、Java、Python等)。
-
高效處理海量數據需特定技能。
-
數據研究和抽取:要求分析師掌握各種常見格式處理技巧。
-
數據存儲格式:數據通常以結構化形式存儲于文件或數據庫中,格式多樣,常見有XML、JSON、XLS、CSV等。
-
數據庫數據獲取:需掌握SQL數據庫查詢語言,或使用專門軟件。
-
特定類型任務:若拿到的是文本文件(文檔、日志)或網頁,需要從文件中抽取圖表、測量值、訪客量或HTML表格,即數據抓取,需專業知識。
-
因此,學習信息技術知識很有必要,以掌握當代計算機科學基礎上發展起來的方法。
-
各種工具,比如軟件和編程語言。數據