數據可視化發展歷程

數據可視化是數據描述的圖形表示,是當今數據分析發展最快速、最引人注目的領域之一。借助于可視化工具的發展,或樸實,或優雅,或絢爛的可視化作品給我們講述著各種數據故事。在這個領域中,科學、技術和藝術完美地結合在一起。

數據可視化一般被認為源于統計學誕生的時代,并隨著技術手段、傳播手段的進步而發揚光大; 事實上,用圖形描繪量化信息的思想植根于更早年代人們對于世界的觀察、測量和管理的需要。本節將探索數據可視化的發展歷程。

01、數據可視化的起源

歐洲中世紀晚期是一個孕育著新紀元的時代。經濟發展和文藝復興點燃了歐洲人對人文和科學知識的追求,現代科學開始蹣跚起步。同時地理大發現如同大爆炸一般,把一個有待探索的新世界呈現在西歐人的面前,商人和探險家等滿懷著對財富、貿易或者知識的渴望登上了駛向遠方的航船。面對未知的新世界,很多新的科技,如繪圖學、測量學、天文學等在迅速地更新著人們對世界的認識。

在16世紀,天體和地理的測量技術得到了很大的發展,特別是出現了像三角測量這樣的可以精確繪制地理位置的技術。到了17世紀,笛卡兒發展了解析幾何和坐標系; 哲學家帕斯卡發展了早期概率論; 英國人John Graunt開始了人口統計學的研究。數據的收集整理和繪制開始了系統的發展。這些早期的探索開啟了數據可視化的大門。

02、18世紀——新的圖形符號出現

18世紀是一個科學史上承上啟下的時代。在這個世紀開始的時候,牛頓爵士已經在蘋果樹下發現了天體運動的偉大方程,微積分建立起來了,數學和物理知識開始為科學提供堅實的基礎; 在這個世紀里,化學也擺脫了煉金術,開始探索物質的組成; 博物學家們繼續在世界各地探索著未知的事物。社會生活也在發展,在這個世紀稍晚的年代,英國開始了工業革命,從此社會化大生產深刻地改變了整個世界——技術成為科學的另一條主線,社會管理也走向數量化和精確化。

與這些社會和科技進步相伴,統計學出現了早期萌芽。一些與繪圖相關的技術也出現了,如三色彩印(1710)和平板印刷(1798)(后者被當今學者稱為如同施樂打印機一般偉大的發明)。數據的價值開始為人們所重視,人口、商業等方面的經驗數據開始被系統地收集整理,天文、測量、醫學等學科的實踐也有大量的數據被記錄下來。人們開始有意識地探索數據表達的形式,抽象圖形和圖形的功能被極大地擴展,許多嶄新的數據可視化形式在這個世紀里誕生了。

這些新的圖形創新涵蓋很多圖形領域。

在地圖中,出現了以等值線(Edmund Halley,1701)以及等高線表示的3D地圖(Marcellin du Carla-Boniface,1782)。比較國家間差別的幾何圖形開始出現在地圖上(Charles de Fourcroy,1782)。時間線被歷史研究者引入,用來表示歷史的變遷(Priestley,1765)。

法國人Marcellin du Carla-Boniface繪制的等高線圖(見圖1-1),用一條曲線表示相同的高程,對于測繪、工程和軍事有重大的意義,成為地圖的標準形式之一。

特別重要的是,在后來被人們作為基本圖形使用的餅圖、圓環圖、條形圖和線圖也出現了。

03、19世紀前半葉

19世紀前半葉是最好的時代也是最壞的時代。科技在迅速發展,工業革命從英國擴散到歐洲大陸和北美。但是財富的增加并未同步地改善社會生活,各種革命在這個時代里層出不窮。但對數據可視化來說,這是一個快速發展的好時代。隨著社會對數據的積累和應用的需求,以及技術和設計的進步,現代的數據可視化——統計圖形和主題圖的主要表達方式,在這幾十年間基本都出現了。

在這個時期內,數據可視化的重要發展包括: 在統計圖形方面,散點圖、直方圖、極坐標圖和時間序列圖等當代統計圖形的常用形式都已出現。在主題圖方面,主題地圖和地圖集成為這個時期展示數據信息的一種常用方式,應用領域涵蓋社會、經濟、疾病、自然等各個主題。

(1) 主題地圖和社會學的發展。

在1801年,英國地質學家William Smith(1769—1839)繪制了第一幅地質圖,這幅描繪了英格蘭地層的信息圖在1815年出版后引起轟動,引領了一場在地圖上表現量化信息的潮流。

1826年,法國男爵Charles Dupin發明了使用連續的黑白底紋來顯示法國識字分布情況的方法,這可能是第一幅現代形式的主題統計地圖。

(2) 霍亂地圖與傳染病的研究。

19世紀上半葉的歐洲,伴隨工業迅速發展的是城市的擴張和人口的增長,但是公共管理并未能與時俱進。城市居民極易受到傳染病的侵害。1831年10月,英國第一次暴發霍亂,奪走了5萬余條生命。在1848—1849年和1853—1854年的霍亂中,死亡人數更多。霍亂傳播因何而來又如何傳播?可視化最終給出了答案。

1854年,英國Broad大街大規模暴發霍亂,John Snow對空氣傳播霍亂理論表示了懷疑,于1855年發表了關于霍亂傳播理論的論文。John Snow采用了點圖的方式,圖中心東西方向的街道即為Broad大街,黑點表示死亡的地點。這幅圖揭示了一個重要現象,就是死亡發生地都在街道中部一處水源(公共水泵)周圍,市內其他水源周圍極少發現死者。通過進一步調查,他發現這些死者都飲用過這里的水。后來證實離這口水泵僅3英尺(1英尺≈0.3048米)遠的地方有一處污水坑,坑內滋生的細菌正是霍亂發生的罪魁禍首。他成功地說服了當地政府廢棄那個水泵。這是可視化歷史上的一個劃時代的事件。

(3) 提燈女神的玫瑰圖。

玫瑰圖即極坐標面積圖(Polar Area Diagram),將極坐標平面分為若干角相等但面積不等的區域,適合表示周期循環的數據。這種圖形可以被視為餅圖的一個變種,又因為每個扇區區域面積不同,又稱玫瑰圖(也稱為風玫瑰圖)。

在克里米亞戰爭期間,南丁格爾通過搜集數據發現,很多人死亡的原因并非是“戰死沙場”,而是因為在戰場外感染了疾病,或是在戰場上受傷,卻沒有得到適當的護理。

為了解釋這個原因,并降低英國士兵的死亡率,她繪制了這幅著名的圖,并于1858年送到了維多利亞女王手中。這幅圖中一個切角是一個月,其中面積最大的灰色塊代表著可預防的疾病。這幅圖真的很厲害,為什么呢?第一,它用面積直觀地表現出了一個時間段內幾種死因的占比,讓任何人都能看懂; 第二,它還很漂亮,像一朵玫瑰花一樣。它為什么要那么漂亮?因為這幅圖的匯報對象以及最終的決策人是維多利亞女王。南丁格爾的故事告訴我們: 數據可視化是為了更好地促進行動,所以要讓行動的決策人看懂。

04、19世紀下半葉的黃金時期

19世紀下半葉,系統地構建可視化方法的條件日漸成熟,進入了統計圖形學發展的黃金時期。值得一提的是法國人Charles Joseph Minard,他是將可視化應用于工程和統計的先驅者。其最著名的工作是1869年發布的描繪1812—1813年拿破侖進軍莫斯科大敗而歸的歷史事件的流圖。

這幅拿破侖1812年的遠征圖被后世學者稱為“有史以來最好的統計圖表”。這場戰爭以法國軍隊的慘敗而告終,侵入俄國的42萬人最終生還者僅數萬。造成法軍損失慘重的原因,除了俄羅斯人的頑強抵抗,還有惡劣的自然條件,特別是1812年冬季的嚴寒。

這幅遠征圖反映了這場戰爭全景,其經典之處在于在一幅簡單的二維圖上,表現了豐富的信息: 法軍部隊的規模、地理坐標、前進和撤退的方向、抵達某處的時間以及撤退路上的溫度。這張圖對1812年的戰爭提供了全面、強烈的視覺表現,如撤退路上在別列津河的重大損失、嚴寒對法軍損失的影響等,這種視覺的表現力用歷史學家的文字是難以比擬的。

05、19世紀前半葉

19世紀下半葉,系統地構建可視化方法的條件日漸成熟,進入了統計圖形學發展的黃金時期。值得一提的是法國人Charles Joseph Minard,他是將可視化應用于工程和統計的先驅者。其最著名的工作是1869年發布的描繪1812—1813年拿破侖進軍莫斯科大敗而歸的歷史事件的流圖。

這幅拿破侖1812年的遠征圖被后世學者稱為“有史以來最好的統計圖表”。這場戰爭以法國軍隊的慘敗而告終,侵入俄國的42萬人最終生還者僅數萬。造成法軍損失慘重的原因,除了俄羅斯人的頑強抵抗,還有惡劣的自然條件,特別是1812年冬季的嚴寒。

這幅遠征圖反映了這場戰爭全景,其經典之處在于在一幅簡單的二維圖上,表現了豐富的信息: 法軍部隊的規模、地理坐標、前進和撤退的方向、抵達某處的時間以及撤退路上的溫度。這張圖對1812年的戰爭提供了全面、強烈的視覺表現,如撤退路上在別列津河的重大損失、嚴寒對法軍損失的影響等,這種視覺的表現力用歷史學家的文字是難以比擬的。

06、20世紀上半葉

20世紀上半葉,數據可視化最重要的影響是在天文、物理、生物和其他科學領域中。圖形方法被廣泛應用在新發現、新思想和新理論的過程中。其中主要包括: ①E.W.Maunder(1904)的蝴蝶圖,研究了太陽黑子隨時間的變化。他發現1645—1715年太陽黑子的頻率有明顯減少。圖1-2是由NASA按照Maunder方法繪制的蝴蝶圖; ②Hertzsprung-Russell圖(1911),作為溫度函數的恒星亮度的對數圖,解釋了恒星的演化,成為現代天體物理的奠基之一; ③Henry Moseley關于原子序數的發現(1913),這也是基于大量的圖形分析。

在這個時期稍晚的階段,統計和心理學上的一些多維數據可視化的思想和方法提供了超越二維圖形表現的動力。

在主題圖方面,這個時期的一個有意思的創新是關于倫敦地鐵圖(見圖1-3)的設計,并由此產生了Tube Map這樣一種交通簡圖的表現手法。早期的地鐵圖與普通地圖無異,對乘客來說,地理信息充分但遠非簡明直觀。1931年,身為電氣工程師的Beck重新設計了倫敦地鐵圖,使之具有三個比較明顯的特點: ①以顏色區分路線; ②路線大多以水平、垂直、45°三種形式來表現; ③路線上的車站距離與實際距離不呈比例關系。其簡明易用的特點使其在1933年出版后迅速為乘客接受,并成為今日交通線路圖形的一種主流表現方法。

07、20世紀下半葉至今——數據可視化的創新思維時代

引領這次大潮的首先是一個劃時代的事件——現代電子計算機的誕生。計算機的出現徹底地改變了數據分析工作。1957年,出現了第一個用于計算的高級程序語言FORTRAN,從此用于統計數據的高效的計算機處理工具開始慢慢出現。到20世紀60年代晚期,大型計算機已廣泛分布于西方的大學和研究機構,使用計算機程序繪制數據可視化圖形逐漸取代手繪的圖形。計算機對數據可視化的影響是提供了高分辨率圖形和交互式圖形分析,實現了手繪時代無法企及的表現能力。

其次是喚醒可視化的歷史事件是統計應用的發展,這是一個可能緩慢但是堅定地慢慢深入的過程。數理統計把數據分析變成了堅實的科學,第二次世界大戰后的工業和科學發展使數據處理這門科學運用到各行各業。統計的各個應用分支建立起來,處理各自行業面對的數據問題。在應用中,圖形表達占據了重要地位,比起參數估計、假設檢驗,明快直觀的圖形形式更容易被人接受。

下面來看一下這個時期的一些新發展。

(1) 美國統計學家John Tukey是較早認識到統計作為應用學科價值的數理統計學家之一。1962年,John Tukey發表論文呼吁把實踐性的數據分析作為數理統計的一個分支。隨后,他投身于發展新的、簡單有效的圖形表現之中,創造了莖葉圖

(Stem-Leaf Plot)、盒形圖(Box Plot)等我們今天常用的圖形。

(2) 除了John Tukey的各種描述性數據圖形,統計圖形領域在這個時期最引人注目的發展是多元數據的可視化。如Andrews Plot(1972)利用有限的傅里葉序列表現高維數據。另外,聚類圖和樹形圖等也在1970年開始應用。

(3) 另一個發展是數據縮減(Data Reduction)的圖形技術。多維標度法(Multi Dimensional Scaling,MDS)是一種在低維空間展示“距離”數據結構的多元數據分析技術,是一種將多維空間的研究對象(樣本或變量)簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關系的數據分析方法。多維標度法與主成分分析(Principal Component Analysis,PCA)、線性判別分析(Linear Discriminant Analysis,LDA)類似,都可以用來降維。

(4) 出現了現代GIS(Geographic Information System,地理信息系統)和二維、三維的統計圖形交互系統。

對于可視化來說,三維是必要的,因為典型問題涉及連續的變量、體積和表面積(內外、左右和上下)(見圖1-4)。然而,對于信息可視化來說,典型問題包含更多的分類變量和股票價格、醫療記錄或社會關系類數據中模式、趨勢、聚類、異類和空白的發現。

1986年10月,美國國家科學基金會主辦了一次名為“圖形學、圖像處理及工作站專題討論”的研討會,旨在為從事科學計算工作的研究機構提出方向性建議。會議將計算機圖形學和圖像方法應用于計算科學的學科稱為科學計算之中的可視化。

1990年,IEEE舉辦了首屆IEEE Visualization Conference(可視化會議),匯集了一個由物理、化學、計算、生物醫學、圖形學、圖像處理等交叉學科領域研究人員組成的學術群體。2012年,為突出科學可視化的內涵,該會議更名為IEEE Conference on Scientific Visualization。

進入21世紀,現有的可視化技術已難以應對海量、高維、多源、動態數據的分析挑戰,需要綜合可視化、圖形學、數據挖掘理論與方法,研究新的理論模型、新的可視化方法和新的用戶交互手段,輔助用戶從大尺度、復雜、矛盾甚至不完整的數據中快速挖掘有用的信息以便做出有效決策,從而催生了可視分析學這一新興學科。該學科的核心理論基礎和研究方法目前仍處于探索階段。從2004年起,研究界和工業界都朝著面向實際數據庫、基于可視化的分析推理與決策、解決實際問題等方向發展。隨著大數據和人工智能技術的發展,數據可視化開始朝著智能化和自動化的方向發展。智能數據可視化工具可以根據數據的特征,自動選擇合適的圖形和圖表,并對數據進行自動整理和處理。這一階段的特點是數據可視化工具能更智能地理解用戶需求,提供更準確、更有價值的數據分析和數據可視化結果。同時,自動化功能也提高了數據可視化的效率和準確性。

隨著數據可視化技術的不斷發展和普及,越來越多的人開始接觸和使用數據可視化工具。這不僅包括專業的研究人員和開發者,還包括各行各業人員、管理者。數據可視化已經成為一種通用的數據呈現和溝通方式。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/94523.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/94523.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/94523.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深入理解C++中的stack、queue和priority_queue

目錄 前言 1. stack(棧) 1.1 基本概念 1.2 常用接口 1.3 應用示例:最小棧 1.4 模擬實現 2. queue(隊列) 2.1 基本概念 2.2 常用接口 2.3 模擬實現 3. priority_queue(優先隊列) 3.1…

C++ 操作 Redis 客戶端

引言 前面幾篇文章都在介紹 Redis 原生命令行客戶端,在實際應用開發中,開發人員更希望使用針對特定編程語言的專用客戶端,通過編程的方式操作 Redis 數據庫。因此,Redis 支持多種編程語言。本文將介紹 如何使用 C 語言來操作 Red…

批量提問程序開發方案:基于Python的百度文小言接口實現

批量提問程序開發方案:基于Python的百度文小言接口實現 1. 項目概述 1.1 項目背景 在現代信息檢索和自動化辦公場景中,批量提問功能已成為提高工作效率的重要工具。本項目旨在開發一個基于Python的批量提問程序,專門針對百度文小言平臺&am…

Apollo中三種相機外參的可視化分析

Apollo中三種相機外參的可視化分析一、什么是相機外參?為什么需要可視化?二、不同外參來源對比三、詳細操作步驟1. 環境準備2. 獲取 NuScenes外參數據3. 外參到空間位置的轉換及可視化四、可視化對比1. NuScenes數據集外參2. Apollo BEV模型外參3. Apoll…

虛擬化KVM常用命令匯總

KVM(Kernel-based Virtual Machine)是一種開源的硬件虛擬化解決方案,它是 Linux 內核的一部分,允許在支持虛擬化技術的硬件(如 Intel VT-x 或 AMD-V)上運行虛擬機。KVM 將 Linux 內核轉變為一個裸機虛擬機監…

6s081環境配置以及使用vscode連接本地wsl2

6s081環境配置以及使用vscode連接wsl2 本人環境:windows11、wsl2ubuntu20.04 課程:6s081的2020版本的:https://pdos.csail.mit.edu/6.S081/2020/schedule.html 一、wsl2ubuntu20.04配置6s081環境 注:關于如何在window中安裝wsl,這…

C++實現線程池(3)緩存線程池

三. CachedThreadPool 的實現3.1 需求:動態調整線程數量:與 FixedThreadPool 不同,CachedThreadPool 的線程數量是動態調整的。當有新任務提交時,如果線程池中有空閑的線程,則會立即使用空閑線程執行任務;如果線程池中…

WMS+自動化立庫:無人倉的現在進行時

傳統倉庫正面臨嚴峻挑戰:效率瓶頸日益凸顯,人力成本持續攀升,空間利用率逼近極限,而訂單響應速度卻難以滿足市場需求。如何破局?WMS(倉庫管理系統)與自動化立體庫(AS/RS)…

多模態大模型研究每日簡報【2025-08-05】

訓練數據相關 EditGarment: An Instruction-Based Garment Editing Dataset Constructed with Automated MLLM Synthesis and Semantic-Aware Evaluation (https://arxiv.org/abs/2508.03497):提出了一種自動化的流程,用于構建服裝編輯數據集EditGarmen…

4、docker數據卷管理命令 | docker volume

1、命令總覽命令作用出現頻率備注★ docker volume create新建卷高-d 指定驅動,-o 指定驅動選項★ docker volume ls列出卷高--filter danglingtrue 查孤兒卷★ docker volume inspect查看卷詳情高輸出 JSON,可加 --format★ docker volume rm刪除卷高只…

計數組合學7.14(對偶 RSK 算法)

7.14 對偶 RSK 算法 存在 RSK 算法的一種變體,其與乘積 ∏i,j(1xiyj)\prod_{i,j}(1 x_{i}y_{j})∏i,j?(1xi?yj?) 的關系類似于 RSK 算法本身與 ∏i,j(1?xiyj)?1\prod_{i,j}(1 - x_{i}y_{j})^{-1}∏i,j?(1?xi?yj?)?1 的關系。我們稱此變體為對偶 RSK 算法…

C語言中的進程、線程與進程間通信詳解

目錄 引言 基本概念 1. 進程(Process) 2. 線程(Thread) 線程編程實戰 1. 常見線程庫 2. 合理設置線程數 3. pthread 創建線程 線程同步機制 1. 互斥鎖 pthread_mutex_t 2. 條件變量 pthread_cond_t 3. 讀寫鎖 pthread…

[假面騎士] 555淺談

假面騎士555(faiz)是我最先接觸的一部平成系列的假面騎士,同時也是我個人最喜歡的一部假面騎士。一、大綱簡介震驚,人類最新的進化形態——奧菲一諾,橫空出世!日本的頂級財團,Smart Brain,的前任社長&#…

Vue Router 路由的創建和基本使用(超詳細)

一、路由的基本概念 你是否好奇單頁應用(SPA)是如何在不刷新頁面的情況下實現頁面切換的?這就離不開路由的功勞。 路由:本質是一組 key-value 的對應關系,在前端領域中,key 通常是路徑,value …

深入理解設計模式:策略模式的藝術與實踐

在軟件開發中,我們經常會遇到需要根據不同情況選擇不同算法或行為的場景。傳統的做法可能是使用大量的條件語句(if-else或switch-case),但隨著需求的增加和變化,這種硬編碼的方式會導致代碼難以維護和擴展。策略模式&a…

概率/期望 DP llya and Escalator

題目鏈接:Problem - D - Codeforces 看了這篇文章來的:【算法學習筆記】概率與期望DP - RioTian - 博客園 這篇博客寫得挺好的,講了一些常見方法,概率 / 期望的題多練練就上手了。 題目大意: n 個人排隊上電梯&…

大陸電子MBDS開發平臺轉到其他國產控制器平臺產生的問題記錄

u8_StComLowSpdGearSwt變量為例,之前用的時候只有輸入,沒什么實際意義,導致新環境下編譯報錯,缺少聲明,解決辦法:注釋掉輸入模塊。今天解決的另一個比較大的問題,不同模型函數公用函數模塊生成代…

機器學習模型調優實戰指南

文章目錄模型選擇與調優:從理論到實戰1. 引言2. 模型評估:為選擇提供依據2.1 偏差-方差權衡2.2 數據集劃分與分層抽樣2.3 交叉驗證(Cross-Validation)2.4 信息準則(AIC / BIC)3. 超參數調優:讓模…

【教程】Unity CI/CD流程

測試機:紅帽 Linux8 源碼倉庫:Gitee - MrRiver/Unity Example ? 系統環境準備 1)yum 源 sudo curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-8.repo sudo sed -i s/\$releasever/8/g /etc/yum.repos…

文獻閱讀 | Briefings in Bioinformatics | Hiplot:全面且易于使用的生物醫學可視化分析平臺

文獻介紹文獻題目: Hiplot:一個綜合且易于使用的 Web 服務,用于增強出版物準備的生物醫學數據可視化 研究團隊: Openbiox/Hiplot 社區 發表時間: 2022-07-05 發表期刊: Briefings in Bioinformatics 影響因…