《數據驅動安全:數據安全分析、可視化和儀表盤》一1.2.4 統計學

本節書摘來異步社區《數據驅動安全:數據安全分析、可視化和儀表盤》一書中的第1章 ,第1.2.4節,[美]杰·雅克布(Jay Jacobs)鮑布·魯迪斯(Bob Rudis) 著 薛杰 王占一 張卓 胡開勇 蔣夢飏 趙爽 譯, 更多章節內容可以訪問云棲社區“異步社區”公眾號查看。

1.2.4 統計學

或許我們在這里有些偏向,但是撿拾起一些統計學知識幾乎會改變你生活的每個方面。它不僅會改變你看待以及學習周圍世界的方法,而且會使你自身變得更加有趣,甚至可能在身邊的人們眼中更具魅力。嚴肅地說,雖然統計學(在這里我們把它作為一項技能進行討論)是一個寬泛的主題,是很難喝到水的深水井。我們使用術語去描述逐漸演變的統計技術與方法集合,這些技術與方法現在已經演變成了(還在持續演變)嘗試從數據中學習的狀態。這些技能不但包括經典的統計學,還包括像數據挖掘以及機器學習這樣的新技術。非常幸運的是,你可以從相當杰出的一代代人們的成功與失敗中學到很多內容,這些人處理的數據和我們的數據非常相似,即使他們的計算器只是筆和紙,而我們使用的是電子電路。不管你對于統計與數據分析工具的個人觀點如何,有大量證據表明,當統計學用于信息安全領域后,其影響力波及其他幾乎所有科學領域。
除了顯而易見的“從數據中學習”的方法之外,有一些更加深入的理由去集中提高你的統計技能。

  • 盡管數據從不說謊,被它欺騙卻很容易。作為具有啟發式思維的生命,我們擁有從周圍世界中提出模式及含義的能力。這種發現隱蔽的聯系及模式的能力通常很有益處,人們每天都會使用這種能力。然而需要注意的是,這種技能也可能會誤導你,你可能會認為你看見了根本不存在的模式及聯系。對統計的良好理解會使你更深層次地認識到這點,它的一些策略會使得這樣的錯誤結論數量達到最低。
  • 盡管我們剛說過數據從不說謊,但是生成及收集數據的方法會產生欺騙性的結論。比如詢問我們身邊人們的看法會導致錯誤地肯定自身的觀點,因為我們很自然地和志同道合的人聚集在一起,且想法趨同一致。數據本身可能并不具有欺騙性,但是它卻容易導致人們聯想到一些不相符的含義,就如1936年大選投票中的預測故事一樣(請看下文“數據產生欺騙”)。

統計學并不僅是工具的集合,它是具有自己工具集的工具箱的集合。你可以從描述性統計開始,描述性統計將數據簡化為描述數據某些方面的數字。舉例來說,你可以通過計算均值、模、中位數以得到數據的中心,也可以通過標準差來描述數據的分散程度,可以使用偏斜度解釋數據的對稱性,也可以使用峰態描述峰寬。然而不管什么時候,只要你簡化數據,都會在一定程度上失去數據的細節,這時候,可視化方法可以提供很好的服務。你使用可視化方法創建一段表述或者信息,這段信息包含并傳達每個數據點,沒有簡化。我們將這種類型的可視化看作“描述性可視化”,因為它僅僅簡單地描述數據。
除了過于簡化的挑戰之外,描述性統計局限于僅能描述你所收集到的數據。掃描少數幾個系統然后計算漏洞的平均數,宣稱統計數值描述了環境中的所有系統,這樣的做法是不對的。推理統計可以幫助你更深入地研究數據,而不僅僅是描述觀察值。當給你一個群體的較小代表性樣本時,你可以對更大的群體做出推理說明。這里的關鍵詞是“代表性”。統計學教會你“實驗設計”(感謝Fisher以及他的同事們),它會幫助你收集數據,以便于你減少被數據誤導的可能性。你當然希望收集的樣本具有代表性,那么就使用正確的數據收集方法吧。在過去,很多人已經有過前車之鑒,千萬不要重蹈覆轍。

數據產生的欺騙
《Literary Digest》雜志進行了一次民意測驗,嘗試預測1936年的總統競選結果。他們通過電話簿、俱樂部會員身份以及雜志訂閱信息收集人名單。結束測驗時,回應信息已經超過200萬份并且預測了一位似乎明顯的勝利者:Alfred Landon(對于這些人來說,美國歷史并沒能如他們所愿,民主黨候選人Roosevelt贏得了這場大選,他在46個州中勝出)。《Literary Digest》雜志的問題在測驗之前就已經存在,故障出在數據的來源。注意這一年大選在1936年,此時美國的大蕭條還沒有結束。他們通過電話簿、俱樂部會員身份以及雜志訂閱信息收集人名單,而這些人大體上屬于中層及上層階級,這些人普遍偏愛Landon,以至于得到的答案在數學方面正確而與實際完全不符。
數據沒有說謊,如果他們想知道,在使用電話、俱樂部會員身份以及訂閱雜志的美國人中,哪位總統候選人會獲得最多選票,這些數據陳述了一個準確的故事。但是他們并非在尋找那個故事,他們想要知道的是美國所有已注冊選民的看法。由于在選取數據樣本來源時有偏差,導致加入了數據中根本不存在的含義。
他們擁有的史無前例的200萬份回復的事實并不能幫助提高民意測驗的準確度。當這樣類似系統性的錯誤存在時,收集更多數據只會形成更大的偏差樣本。為了徹底闡明這一觀點,在同樣的1936年選舉中,一個叫George Gallup的年輕人收集了一份相對較小、僅有5萬選民的樣本,他應用了更多有代表性抽樣方法,正確地預測了Roosevelt將會成為1936年選舉的勝利者。幾年以后,《Literary Digest》雜志停業,而Gallup Inc.現在已經成為一個國際性機構,仍然做調研以及收集數據的咨詢。

應該始終以一種尊敬與謙卑的態度來對待統計學。當你不知不覺地慢慢進入應用數學的深處時,你會發現找到那些不存在的含義(學術上稱作I類錯誤)有多容易。但是更重要的是要理解無論有無數據這種錯誤都會出現。這種錯誤甚至會出現于你填寫Excel電子表格的一個空格之前,工具箱中最好的工具被設計用于限制這種類型錯誤出現的機會,但是單獨的統計是不夠的。你需要將經驗與數據相結合以減少被誤導的可能性。即使經驗與數據相結合,這種錯誤仍可能出現。但是你可以通過應用嚴謹的作風以及方法來減少這種錯誤發生的頻率。當這種錯誤真的出現時,這嚴謹的作風會把你放在一個更好的位置去從錯誤中學習。
我們已經建立了統計學應用的權威性,應該指出的是,即使沒有高級的統計技術,你也可以從數據中學到很多內容。回想之前提到過的“描述性可視化”,花費一點時間看看周圍的那些可視化的信息。它們通常不是從統計模型中建立,而是描述一些數據集并說明其中的關系。圖1-1中Snow所繪的Board Street上水泵附近區域的圖沒有涉及邏輯回歸以及機器學習。這幅圖僅僅是地址與死亡間關系的可視化描述。毫無疑問,你可以使用簡單的統計方法以及描述性可視化提高保護信息資產的能力。你所需要的只是提問、收集證據、做出清醒的認識以及將其傳達給其他人的耐心。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/258334.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/258334.shtml
英文地址,請注明出處:http://en.pswp.cn/news/258334.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python列反過來_xlwings 教程:使用Python更快速地處理Excel

Excel在當今商業中的使用非常普遍。在Dataquest,出于很多原因,我們通常推薦使用代碼處理數據,并且我們的許多數據科學課程的目標是教授數據分析和數據科學的高效編碼。但是,無論您多么喜歡使用Python,在一天結束時&…

多類線性分類器算法原理及代碼實現 MATLAB

多類線性分類器算法原理及代碼實現 MATLAB 一、算法原理 下面舉例說明為何藍圈部分在case2中是確定的而在case1中不確定: 二、代碼實現 1、HK函數 function [] HK(w1_data,w2_data) %w1_data為第一類數據集 w2_data為第二類數據集 %此函數的作用為用HK算法對輸…

(轉) C#如何使用異步編程

怎么使用異步,就是用委托進行處理,如果委托對象在調用列表中只有一個方法,它就可以異步執行這個方法。委托類有兩個方法,叫做BeginInvoke和EndInvoke,它們是用來異步執行使用。 異步有三種模式 等待模式,在…

javascript 的 ~ 操作符作用

2019獨角獸企業重金招聘Python工程師標準>>> "~" operator in javascript. For anyone else who also didnt know what it does: it converts -1 to 0,可以節省用來比較-1的情況,如 if (~event.origin.indexOf(http://yoursite.com…

駐定相位原理(POSP)以及線性調頻信號的頻譜

最近看論文遇到了駐定相位原理,問老師直接給了我一本書讓我看,看半天只有一段…不是這個方向的,半路出家做畢業設計需要用到這個定理,有錯誤的話請不吝賜教。 一、駐定相位原理 在數字信號處理中,經常需要將一個時域…

vue怎么合并兩個視頻_【軟件分享】視頻分割合并軟件哪款好用呢?怎么剪切合并視頻?...

現在有很多小伙伴都喜歡喜歡自己拍視頻上傳到各大視頻平臺,有時候會遇到關于視頻剪輯方面的難題,比如說,視頻怎么剪切?怎么將兩段小視頻合并成一個呢?這些都是一些比較常常遇到的問題,今天小編就給大家介紹…

怎樣根據字段域查找到其在數據庫中關系與屬性

Infor SyteLine ERP中,很多時候需要做維護,我們需要從打開的window窗口的form中某一個輸入Textbox域或是DropDownList域,去找到它是綁定了數據庫中的哪一張表,哪一個字段的? 其相關的關系或是屬性等。比如下面這個form…

【手勢交互】9. PS Move

索尼研發體感控制技術已有10年,在過去那么多年里。嘗試了3D攝像頭、超聲波和電磁感應等各種技術。最后還是覺得眼下的MOVE所使用的技術最為合適。PS Move是索尼于2010年9月份推出。用來讓PS3主機具備動態感應功能的控制器。他利用動態控制器(手柄&#x…

多普勒效應及多普勒頻移的簡單推導

多普勒效應及多普勒頻移的簡單推導 fd≡fR?fT(1)f_d\equiv f_R-f_T \tag{1} fd?≡fR??fT?(1) ??式中,fdf_dfd?表示多普勒頻移,fRf_RfR?表示目標回波的頻率(Hz),fTf_TfT?表示發射信號的頻率(Hz)。 多普勒頻移…

amazons3 檢查連接是否_鋼筋機械連接接頭如何檢查是否合格?抽檢數量、合格率是多少?...

一、鋼筋機械連接介紹1、鋼筋機械連接在連接區段內接頭率的規定(35d):★接頭宜設置在結構構件中受拉應力較小的部位,當需要在高應力部位設置時,在同一連接區段內Ⅲ接頭的接頭率不應大于25%,Ⅱ接頭率不應大于50%,Ⅰ接頭…

學容器必須懂 bridge 網絡 - 每天5分鐘玩轉 Docker 容器技術(32)

上一節我們討論了 none 和 host 類型的容器網絡,本節學習應用最廣泛也是默認的 bridge 網絡。 Docker 安裝時會創建一個 命名為 docker0 的 linux bridge。如果不指定--network,創建的容器默認都會掛到 docker0 上。 當前 docker0 上沒有任何其他網絡設備…

駐定相位原理(POSP)的簡單應用

在SAR雷達成像中,POSP是相當基礎重要的一個定理,一般在對回波做傅里葉變換時經常用到,一般在論文的開頭就會出現。 ??下面簡單復習一下POSP的步驟: 1:列出傅里葉變換表達式 2:對相位在駐定相位點處泰勒展…

(轉)Unity3DUnity3D在android下調試

轉自:http://blog.csdn.net/zuoyamin/article/details/11827309 一、工具準備 1.JDK——由于android是基于Java平臺開發的,jdk是必須要安裝的。下載地址:http://www.java.net/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32…

Windows系統時間同步出錯解決辦法

有時候我們設置本地時間與Internet時間同步時,經常連接服務器time.windows.com超時,導致時間同步失敗,解決辦法如下: 利用快捷鍵"WinR"調出運行框,輸入:w32tm /register按回車,執行完…

vs2019 更新安裝錯誤_本月Windows 10累積更新再出BUG:安裝時跳出錯誤代碼

在本月的補丁星期二活動日中,微軟為所有支持的 Windows 10 系統帶來了新一輪的累積更新。和以往一樣,本次發布的 KB4566782 和 KB4565351 兩個累積更新又出現了新的 BUG。根據用戶反饋,Windows10 Version 2004/1909/1903 功能更新安裝這些累積…

【python】畫一個愛心

python畫愛心 做二級python題目的時候,遇到了一個畫愛心編程題,感覺挺有趣的,把它搬到這里來。 from turtle import * def curvemove():for i in range(200):right(1)forward(1) setup(600,600,400,400) hideturtle() pencolor(black) fill…

上天入海又怎樣?阿里的運動達人紛紛表示不服

6月23日是國際奧林匹克日。奧林匹克精神其實是一個普遍的概念。所有能使人變得更好的原則,都包容它明亮的光環里。2017年1月19日,阿里巴巴和國際奧委會在洛桑共同宣布top合作伙伴計劃,開啟了為期12年的阿里奧運之旅。阿里將給世界帶來“云上的…

VC++中內存對齊

我們經常看到求 sizeof(A) 的值的問題,其中A是一個結構體,類,或者聯合體。 為了優化CPU訪問和優化內存,減少內存碎片,編譯器對內存對齊制定了一些規則。但是,不同的編譯器可能有不同的實現,本文…

iOS:轉載:IOS謂詞--NSPredicate

IOS謂詞--NSPredicate 分類: IOS應用2013-02-19 17:24 6792人閱讀 評論(1) 收藏 舉報Cocoa 提供了NSPredicate 用于指定過濾條件,謂詞是指在計算機中表示計算真假值的函數,它使用起來有點兒像SQL 的查詢條件,主要用于從集合中分揀…

cordova 更改app版本_Cordova打包Android應用流程(MAC)

擴展閱讀基于Cordova批量打場景包(MAC)APP包名稱命名規則1. 安裝cordova打包應用brew install cordova2. 創建cordova項目執行命令 create app com.githen.app 測試app * app 項目的目錄名稱 ( 下面所有目錄均以此目錄為根目錄說明 ) * com.githen.app 項目包名稱 * 測試app 項…