數據可視化是數據描述的圖形表示,是當今數據分析發展最快速、最引人注目的領域之一。借助于可視化工具的發展,或樸實,或優雅,或絢爛的可視化作品給我們講述著各種數據故事。在這個領域中,科學、技術和藝術完美地結合在一起。
數據可視化一般被認為源于統計學誕生的時代,并隨著技術手段、傳播手段的進步而發揚光大; 事實上,用圖形描繪量化信息的思想植根于更早年代人們對于世界的觀察、測量和管理的需要。本節將探索數據可視化的發展歷程。
01、數據可視化的起源
歐洲中世紀晚期是一個孕育著新紀元的時代。經濟發展和文藝復興點燃了歐洲人對人文和科學知識的追求,現代科學開始蹣跚起步。同時地理大發現如同大爆炸一般,把一個有待探索的新世界呈現在西歐人的面前,商人和探險家等滿懷著對財富、貿易或者知識的渴望登上了駛向遠方的航船。面對未知的新世界,很多新的科技,如繪圖學、測量學、天文學等在迅速地更新著人們對世界的認識。
在16世紀,天體和地理的測量技術得到了很大的發展,特別是出現了像三角測量這樣的可以精確繪制地理位置的技術。到了17世紀,笛卡兒發展了解析幾何和坐標系; 哲學家帕斯卡發展了早期概率論; 英國人John Graunt開始了人口統計學的研究。數據的收集整理和繪制開始了系統的發展。這些早期的探索開啟了數據可視化的大門。
02、18世紀——新的圖形符號出現
18世紀是一個科學史上承上啟下的時代。在這個世紀開始的時候,牛頓爵士已經在蘋果樹下發現了天體運動的偉大方程,微積分建立起來了,數學和物理知識開始為科學提供堅實的基礎; 在這個世紀里,化學也擺脫了煉金術,開始探索物質的組成; 博物學家們繼續在世界各地探索著未知的事物。社會生活也在發展,在這個世紀稍晚的年代,英國開始了工業革命,從此社會化大生產深刻地改變了整個世界——技術成為科學的另一條主線,社會管理也走向數量化和精確化。
與這些社會和科技進步相伴,統計學出現了早期萌芽。一些與繪圖相關的技術也出現了,如三色彩印(1710)和平板印刷(1798)(后者被當今學者稱為如同施樂打印機一般偉大的發明)。數據的價值開始為人們所重視,人口、商業等方面的經驗數據開始被系統地收集整理,天文、測量、醫學等學科的實踐也有大量的數據被記錄下來。人們開始有意識地探索數據表達的形式,抽象圖形和圖形的功能被極大地擴展,許多嶄新的數據可視化形式在這個世紀里誕生了。
這些新的圖形創新涵蓋很多圖形領域。
在地圖中,出現了以等值線(Edmund Halley,1701)以及等高線表示的3D地圖(Marcellin du Carla-Boniface,1782)。比較國家間差別的幾何圖形開始出現在地圖上(Charles de Fourcroy,1782)。時間線被歷史研究者引入,用來表示歷史的變遷(Priestley,1765)。
法國人Marcellin du Carla-Boniface繪制的等高線圖(見圖1-1),用一條曲線表示相同的高程,對于測繪、工程和軍事有重大的意義,成為地圖的標準形式之一。
特別重要的是,在后來被人們作為基本圖形使用的餅圖、圓環圖、條形圖和線圖也出現了。
03、19世紀前半葉
19世紀前半葉是最好的時代也是最壞的時代。科技在迅速發展,工業革命從英國擴散到歐洲大陸和北美。但是財富的增加并未同步地改善社會生活,各種革命在這個時代里層出不窮。但對數據可視化來說,這是一個快速發展的好時代。隨著社會對數據的積累和應用的需求,以及技術和設計的進步,現代的數據可視化——統計圖形和主題圖的主要表達方式,在這幾十年間基本都出現了。
在這個時期內,數據可視化的重要發展包括: 在統計圖形方面,散點圖、直方圖、極坐標圖和時間序列圖等當代統計圖形的常用形式都已出現。在主題圖方面,主題地圖和地圖集成為這個時期展示數據信息的一種常用方式,應用領域涵蓋社會、經濟、疾病、自然等各個主題。
(1) 主題地圖和社會學的發展。
在1801年,英國地質學家William Smith(1769—1839)繪制了第一幅地質圖,這幅描繪了英格蘭地層的信息圖在1815年出版后引起轟動,引領了一場在地圖上表現量化信息的潮流。
1826年,法國男爵Charles Dupin發明了使用連續的黑白底紋來顯示法國識字分布情況的方法,這可能是第一幅現代形式的主題統計地圖。
(2) 霍亂地圖與傳染病的研究。
19世紀上半葉的歐洲,伴隨工業迅速發展的是城市的擴張和人口的增長,但是公共管理并未能與時俱進。城市居民極易受到傳染病的侵害。1831年10月,英國第一次暴發霍亂,奪走了5萬余條生命。在1848—1849年和1853—1854年的霍亂中,死亡人數更多。霍亂傳播因何而來又如何傳播?可視化最終給出了答案。
1854年,英國Broad大街大規模暴發霍亂,John Snow對空氣傳播霍亂理論表示了懷疑,于1855年發表了關于霍亂傳播理論的論文。John Snow采用了點圖的方式,圖中心東西方向的街道即為Broad大街,黑點表示死亡的地點。這幅圖揭示了一個重要現象,就是死亡發生地都在街道中部一處水源(公共水泵)周圍,市內其他水源周圍極少發現死者。通過進一步調查,他發現這些死者都飲用過這里的水。后來證實離這口水泵僅3英尺(1英尺≈0.3048米)遠的地方有一處污水坑,坑內滋生的細菌正是霍亂發生的罪魁禍首。他成功地說服了當地政府廢棄那個水泵。這是可視化歷史上的一個劃時代的事件。
(3) 提燈女神的玫瑰圖。
玫瑰圖即極坐標面積圖(Polar Area Diagram),將極坐標平面分為若干角相等但面積不等的區域,適合表示周期循環的數據。這種圖形可以被視為餅圖的一個變種,又因為每個扇區區域面積不同,又稱玫瑰圖(也稱為風玫瑰圖)。
在克里米亞戰爭期間,南丁格爾通過搜集數據發現,很多人死亡的原因并非是“戰死沙場”,而是因為在戰場外感染了疾病,或是在戰場上受傷,卻沒有得到適當的護理。
為了解釋這個原因,并降低英國士兵的死亡率,她繪制了這幅著名的圖,并于1858年送到了維多利亞女王手中。這幅圖中一個切角是一個月,其中面積最大的灰色塊代表著可預防的疾病。這幅圖真的很厲害,為什么呢?第一,它用面積直觀地表現出了一個時間段內幾種死因的占比,讓任何人都能看懂; 第二,它還很漂亮,像一朵玫瑰花一樣。它為什么要那么漂亮?因為這幅圖的匯報對象以及最終的決策人是維多利亞女王。南丁格爾的故事告訴我們: 數據可視化是為了更好地促進行動,所以要讓行動的決策人看懂。
04、19世紀下半葉的黃金時期
19世紀下半葉,系統地構建可視化方法的條件日漸成熟,進入了統計圖形學發展的黃金時期。值得一提的是法國人Charles Joseph Minard,他是將可視化應用于工程和統計的先驅者。其最著名的工作是1869年發布的描繪1812—1813年拿破侖進軍莫斯科大敗而歸的歷史事件的流圖。
這幅拿破侖1812年的遠征圖被后世學者稱為“有史以來最好的統計圖表”。這場戰爭以法國軍隊的慘敗而告終,侵入俄國的42萬人最終生還者僅數萬。造成法軍損失慘重的原因,除了俄羅斯人的頑強抵抗,還有惡劣的自然條件,特別是1812年冬季的嚴寒。
這幅遠征圖反映了這場戰爭全景,其經典之處在于在一幅簡單的二維圖上,表現了豐富的信息: 法軍部隊的規模、地理坐標、前進和撤退的方向、抵達某處的時間以及撤退路上的溫度。這張圖對1812年的戰爭提供了全面、強烈的視覺表現,如撤退路上在別列津河的重大損失、嚴寒對法軍損失的影響等,這種視覺的表現力用歷史學家的文字是難以比擬的。
05、19世紀前半葉
19世紀下半葉,系統地構建可視化方法的條件日漸成熟,進入了統計圖形學發展的黃金時期。值得一提的是法國人Charles Joseph Minard,他是將可視化應用于工程和統計的先驅者。其最著名的工作是1869年發布的描繪1812—1813年拿破侖進軍莫斯科大敗而歸的歷史事件的流圖。
這幅拿破侖1812年的遠征圖被后世學者稱為“有史以來最好的統計圖表”。這場戰爭以法國軍隊的慘敗而告終,侵入俄國的42萬人最終生還者僅數萬。造成法軍損失慘重的原因,除了俄羅斯人的頑強抵抗,還有惡劣的自然條件,特別是1812年冬季的嚴寒。
這幅遠征圖反映了這場戰爭全景,其經典之處在于在一幅簡單的二維圖上,表現了豐富的信息: 法軍部隊的規模、地理坐標、前進和撤退的方向、抵達某處的時間以及撤退路上的溫度。這張圖對1812年的戰爭提供了全面、強烈的視覺表現,如撤退路上在別列津河的重大損失、嚴寒對法軍損失的影響等,這種視覺的表現力用歷史學家的文字是難以比擬的。
06、20世紀上半葉
20世紀上半葉,數據可視化最重要的影響是在天文、物理、生物和其他科學領域中。圖形方法被廣泛應用在新發現、新思想和新理論的過程中。其中主要包括: ①E.W.Maunder(1904)的蝴蝶圖,研究了太陽黑子隨時間的變化。他發現1645—1715年太陽黑子的頻率有明顯減少。圖1-2是由NASA按照Maunder方法繪制的蝴蝶圖; ②Hertzsprung-Russell圖(1911),作為溫度函數的恒星亮度的對數圖,解釋了恒星的演化,成為現代天體物理的奠基之一; ③Henry Moseley關于原子序數的發現(1913),這也是基于大量的圖形分析。
在這個時期稍晚的階段,統計和心理學上的一些多維數據可視化的思想和方法提供了超越二維圖形表現的動力。
在主題圖方面,這個時期的一個有意思的創新是關于倫敦地鐵圖(見圖1-3)的設計,并由此產生了Tube Map這樣一種交通簡圖的表現手法。早期的地鐵圖與普通地圖無異,對乘客來說,地理信息充分但遠非簡明直觀。1931年,身為電氣工程師的Beck重新設計了倫敦地鐵圖,使之具有三個比較明顯的特點: ①以顏色區分路線; ②路線大多以水平、垂直、45°三種形式來表現; ③路線上的車站距離與實際距離不呈比例關系。其簡明易用的特點使其在1933年出版后迅速為乘客接受,并成為今日交通線路圖形的一種主流表現方法。
07、20世紀下半葉至今——數據可視化的創新思維時代
引領這次大潮的首先是一個劃時代的事件——現代電子計算機的誕生。計算機的出現徹底地改變了數據分析工作。1957年,出現了第一個用于計算的高級程序語言FORTRAN,從此用于統計數據的高效的計算機處理工具開始慢慢出現。到20世紀60年代晚期,大型計算機已廣泛分布于西方的大學和研究機構,使用計算機程序繪制數據可視化圖形逐漸取代手繪的圖形。計算機對數據可視化的影響是提供了高分辨率圖形和交互式圖形分析,實現了手繪時代無法企及的表現能力。
其次是喚醒可視化的歷史事件是統計應用的發展,這是一個可能緩慢但是堅定地慢慢深入的過程。數理統計把數據分析變成了堅實的科學,第二次世界大戰后的工業和科學發展使數據處理這門科學運用到各行各業。統計的各個應用分支建立起來,處理各自行業面對的數據問題。在應用中,圖形表達占據了重要地位,比起參數估計、假設檢驗,明快直觀的圖形形式更容易被人接受。
下面來看一下這個時期的一些新發展。
(1) 美國統計學家John Tukey是較早認識到統計作為應用學科價值的數理統計學家之一。1962年,John Tukey發表論文呼吁把實踐性的數據分析作為數理統計的一個分支。隨后,他投身于發展新的、簡單有效的圖形表現之中,創造了莖葉圖
(Stem-Leaf Plot)、盒形圖(Box Plot)等我們今天常用的圖形。
(2) 除了John Tukey的各種描述性數據圖形,統計圖形領域在這個時期最引人注目的發展是多元數據的可視化。如Andrews Plot(1972)利用有限的傅里葉序列表現高維數據。另外,聚類圖和樹形圖等也在1970年開始應用。
(3) 另一個發展是數據縮減(Data Reduction)的圖形技術。多維標度法(Multi Dimensional Scaling,MDS)是一種在低維空間展示“距離”數據結構的多元數據分析技術,是一種將多維空間的研究對象(樣本或變量)簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關系的數據分析方法。多維標度法與主成分分析(Principal Component Analysis,PCA)、線性判別分析(Linear Discriminant Analysis,LDA)類似,都可以用來降維。
(4) 出現了現代GIS(Geographic Information System,地理信息系統)和二維、三維的統計圖形交互系統。
對于可視化來說,三維是必要的,因為典型問題涉及連續的變量、體積和表面積(內外、左右和上下)(見圖1-4)。然而,對于信息可視化來說,典型問題包含更多的分類變量和股票價格、醫療記錄或社會關系類數據中模式、趨勢、聚類、異類和空白的發現。
1986年10月,美國國家科學基金會主辦了一次名為“圖形學、圖像處理及工作站專題討論”的研討會,旨在為從事科學計算工作的研究機構提出方向性建議。會議將計算機圖形學和圖像方法應用于計算科學的學科稱為科學計算之中的可視化。
1990年,IEEE舉辦了首屆IEEE Visualization Conference(可視化會議),匯集了一個由物理、化學、計算、生物醫學、圖形學、圖像處理等交叉學科領域研究人員組成的學術群體。2012年,為突出科學可視化的內涵,該會議更名為IEEE Conference on Scientific Visualization。
進入21世紀,現有的可視化技術已難以應對海量、高維、多源、動態數據的分析挑戰,需要綜合可視化、圖形學、數據挖掘理論與方法,研究新的理論模型、新的可視化方法和新的用戶交互手段,輔助用戶從大尺度、復雜、矛盾甚至不完整的數據中快速挖掘有用的信息以便做出有效決策,從而催生了可視分析學這一新興學科。該學科的核心理論基礎和研究方法目前仍處于探索階段。從2004年起,研究界和工業界都朝著面向實際數據庫、基于可視化的分析推理與決策、解決實際問題等方向發展。隨著大數據和人工智能技術的發展,數據可視化開始朝著智能化和自動化的方向發展。智能數據可視化工具可以根據數據的特征,自動選擇合適的圖形和圖表,并對數據進行自動整理和處理。這一階段的特點是數據可視化工具能更智能地理解用戶需求,提供更準確、更有價值的數據分析和數據可視化結果。同時,自動化功能也提高了數據可視化的效率和準確性。
隨著數據可視化技術的不斷發展和普及,越來越多的人開始接觸和使用數據可視化工具。這不僅包括專業的研究人員和開發者,還包括各行各業人員、管理者。數據可視化已經成為一種通用的數據呈現和溝通方式。