TimeNotes: A Study on Effective Chart Visualization and Interaction Techniques for Time-Series Data
- 摘要
- 1 介紹和動機
- 2 文獻
- 2.1 時間序列數據探索
- 2.1.1 數據聚合
- 2.1.2 基于透鏡
- 2.1.3 基于布局
- 3 任務和設計
- 3.1 數據
- 3.2 領域表征
- 3.3 探索、分析和呈現
- 4 TimeNotes
- 4.1 布局
- 4.2 節點交互與渲染
- 4.3 疊加
- 4.4 注釋
- 5 用戶研究
- 5.1 任務和刺激設計
- 5.2 研究假設
- 5.3 研究分析
- 5.4 實驗設置
- 5.5 分析結果
- 5.6 用戶研究討論
- 6 實地研究討論
- 7 結論
- 參考文獻
期刊: IEEE Trans. Vis. Comput. Graph.(發表日期: 2016)
作者: James S. Walker; Rita Borgo; Mark W. Jones
摘要
收集傳感器數據會產生大量的時間數據集,需要對其進行可視化、分析和呈現。使用一維時間序列圖表,但當屏幕分辨率與數據相比較小時,就會出現問題。這可能會導致嚴重的過度繪制,從而需要提供有效的渲染和方法以允許與詳細數據交互。常見的解決方案可以分為多尺度表示、基于頻率和基于鏡頭的交互技術。
在本文中,我們對現有方法進行了比較評估,例如 Stack Zoom [15] 和 ChronoLenses [38],對每種方法進行了圖形化概述,并對它們探索數據和與數據交互的能力進行了分類。我們提出了新的可視化和現有方法的其他擴展。我們使用這些技術進行并報告了實證研究和實地研究。
關鍵詞:時間序列探索、焦點+情境、鏡頭、交互技術。
1 介紹和動機
過去十年,人們對時間序列數據的興趣激增。了解時間模式是獲得知識和洞察力的關鍵。然而,總的來說,我們現在存儲數據的能力遠遠超過了我們理解數據的速度[19]。
一項挑戰是,與數據存儲容量相比,屏幕分辨率較小。當渲染的數據項多于可用像素時,就會出現過度繪制問題,即為每個像素分配多個數據項,從而導致信息丟失。引入了多尺度表示、頻率和基于鏡頭的交互技術來增強對大型時間序列數據的探索。
John Stasko 在 EuroVis 2014 上說[32],“當你知道問題時使用數據挖掘,當你不知道問題時使用可視化”。分析通常涉及識別出現現象的時間序列片段,并比較時間片段之間的有趣模式,這些模式可用于形成、證明或反駁假設。分析后,將調查結果傳達給更廣泛的受眾。在大數據空間中導航和通信是一項重要任務,現有技術并未完全支持該任務(在我們基于任務的評估中得到了證明)。
在本文中,我們評估了當前的可視化和對這些現有方法的擴展。根據我們的評估,我們提出了 TimeNotes,這是一種利用專用交互技術來支持分析、交互和演示的可視化技術。我們通過實證研究和現場研究來評估 TimeNotes 的有效性,其中強調了我們的方法在時間序列數據上的應用。
我們的工作包括以下貢獻:
- TimeNotes,一種非常有效的圖表可視化和與時間序列數據交互的方法。
- 相關方法的圖形調查、基于任務的評估和分類。
- 將 TimeNotes 與最先進的堆棧縮放方法進行比較的用戶研究。
- 與生物學家一起部署軟件的反饋。
本文的其余部分安排如下。在第 2 節中,我們介紹了相關工作。在第 3 節中,我們介紹了操作時間序列數據時的任務和要求。在第 4 節中,我們介紹 TimeNotes。在第五節中,我們概述了實證研究和獲得的結果。在第 6 節中,我們詳細介紹了實地研究和研究結果,在第 7 節中,我們總結了我們的研究結果。
2 文獻
在本節中,我們將介紹文獻中探索大型時間序列數據的當前方法。人們已經引入了許多有效的方法來解決時間序列挖掘任務[36,6,23,13,12],但是,在本文中,我們重點關注有效的探索。
2.1 時間序列數據探索
折線圖無處不在[17,34,25]。雖然標準時間序列圖在處理小數據空間時非常有效,但在大數據上執行常見任務更具挑戰性(圖 1)。引入了交互技術來增強大數據的時間序列圖。在當前的文獻中,這些可以歸類為時間聚合、鏡頭技術和布局扭曲。
我們現在提供這些方法的圖形概述。伊森伯格等人。 [14]提出了一個通用框架,為包含雙尺度的圖表提供設計指南,以增強數據感知。引入了廣義變換函數,它描述了顯示兩個域尺度的任何圖表,其中涉及將數據空間映射到顯示空間。我們利用他們的術語來描述當前的文獻,并應用他們的工作來描述任何具有多種比例和布局的時間序列圖表。我們以一致的方式在我們的軟件中實現了所有方法,并自動生成相關的時域到 x 軸變換函數作為相應的圖形。它們導出為 SVG 并合并到本文檔中,作為方法和分類的說明。
我們的數據使用 15 分鐘(大約)的遠程動物監測數據子部分,這些數據是通過在 Condor 上部署行為數據收集標簽獲得的,其中包含以 40Hz 收集的 34,746 個數據項。每種可視化方法都使用 400 像素寬度,這導致傳統時間序列圖中每個像素 86 個數據項的過度繪制率。當考慮單個鸕鶿翅膀拍打的頻率約為 5Hz 時,這是有問題的[27]。當提供更大的數據時(例如,857,407 個項目的完整部署),問題會變得更糟。
2.1.1 數據聚合
基于頻率的方法將數據點聚合成時間段。在折線圖中渲染大數據隱式地將時間聚合在一起(通過過度繪制),但以一種無意義的方式表示每個像素基礎數據的一小部分。有效的聚合通過有意義的視覺映射來描述每個時間段內項目的統計特征。
像素圖 基于像素的顯示將時間序列表示為用不同色調編碼的像素排列,這些色調對底層數據進行編碼。金凱德等人。 [22]將基于像素的顯示應用于多個時間序列圖。每個時間序列被分成統一的時間段,以便可視化中的每個像素都被分配一個時間段。圖 2 顯示了映射到黃色到藍色色調的每個時間段中的最大值。每個 bin 都是 1 個像素寬,因此有 400 個 bin,每個段包含大約 86 個數據項。
二維像素圖 Hao 等人。 [10]利用x和y軸將一維像素顯示擴展到二維空間。每個時間段都由按時間順序從下到上、從左到右導航的顏色單元表示。通過利用二維,可視化有效地占據了空間,這增加了可顯示的時間段的數量,從而減少了總結時的信息丟失。圖3顯示了每個時間段的最大值,每個bin占據1個像素寬度,3個像素高度。生成的可視化結果包含 34,746 個 bin,對于該數據大小,每列有 86 個數據項,每 3 個像素有 1 個數據項。除了水平數據映射之外,還有鋸齒狀的垂直映射(未示出)。
河圖 布諾等人。 [7] 引入河流圖(圖 4)來描述時間序列預測的許多統計特性。通過時間連接的有界藍色區域表示每個時間段的最小和最大界限。黑色中心線描繪了每個時間段的平均值。
2.1.2 基于透鏡
透鏡技術按需提供用戶定義區域下數據的替代視覺表示。通常,這需要時間軸失真來增強感興趣的片段,同時保持與其余系列的背景。
SignalLens Kincaid 等人。 [21] 提出了用于電子時間序列可視化分析的 SignalLens。時間序列圖中添加了就地放大,這會扭曲時間軸以放大感興趣的區域。放大區域兩側的數據被壓縮以保持上下文,同時允許檢查感興趣的低級細節。為了進行比較,引入了許多透鏡函數:線性、三次、二次、雙曲、球面和高斯。圖 5 說明了應用了線性放大功能的 SignalLens。
平滑 SignalLens 高放大倍率通常需要平滑下降以避免上下文區域中的遮擋。金凱德等人。 [21] 在焦點區域和上下文區域之間引入平滑的視覺過渡選項(圖 6)。這需要三個縮放級別,中心具有固定放大倍率的聚焦區域,兩側具有較低放大倍率的下降區域,最后在剩余空間中顯示上下文。
RiverLens 我們將 SignalLens 和河流圖顯示相結合,以按需提供詳細信息來增強河流圖。向用戶呈現河流圖,其中提供了該系列的概述。刷過顳區會擴展時間序列圖,并覆蓋河流。河流圖顯示在兩側以提供背景信息(圖 7)。
ChronoLens 趙等人。 [38]提出了 Chronolenses,一種交互式視覺分析透鏡技術,用于支持更復雜的數據分析任務,而無需導出新的時間序列可視化(圖 8)。鏡頭通過用戶選擇覆蓋在傳統的時間序列圖之上,并且可以顯示衍生數據,例如導數和移動平均值。應用于鏡頭的縮放、調整大小和移動操作用于通過數據點的動態變換放大時間序列來克服遮擋。
2.1.3 基于布局
基于布局的技術修改時間序列的空間排列,以提供時間的線性映射,同時轉換時間序列圖以增強顯示。郝等人。 [11]提供了基于興趣的可視化的早期示例,該示例使用重要性驅動的布局方案應用于時間序列集以感知重要性和層次關系。
堆棧縮放 Javed 等人。 [15]提出了堆棧變焦,一種多焦點變焦技術(圖9)。多焦點縮放在縮放時保持上下文和時間距離。用戶選擇創建縮放線圖的層次結構,以嵌套樹布局表示。圖表彼此堆疊,整個數據集在根節點處以折線圖顯示。每個更高級別的縮放都表示為一個新的子節點,堆疊在父節點下方。布局管理器維護每個級別上的節點是按時間排序的。顏色和箭頭用作視覺提示來說明子節點相對于其父節點的位置。樹結構用作通信目的的圖形歷史記錄。
概述和細節 Plaisant 等人。 [28]引入了概述和細節顯示的概念,它提供了焦點區域的同步視圖,以及提供焦點上下文的整個數據系列的概述。上下文線圖(圖 10 頂部)可視化整個數據集,用戶可以由此刷出感興趣的區域以進??一步詳細檢查。選定的數據子集在單獨的焦點線圖顯示中可視化(圖 10 底部),更詳細地顯示數據,同時仍保持整個數據集的上下文。
縮放圖 縮放圖顯示將時間序列圖嵌入可縮放小部件中,用戶可以控制縮放級別以定義他們所需的詳細程度(圖 11)。隨著縮放的增加,時間序列圖的寬度擴大。顯示視口保持不變。滾動條允許用戶平滑地滾動擴展的時間序列。
我們以圖形方式概述了當前最先進的時間序列可視化技術。賈維德等人。 [16, 15] 提供了堆棧縮放與用于時間數據導航的標準技術的比較。他們進行了基于設計和受控的用戶研究,以評估多焦點技術與概述+細節技術的優缺點。研究結果包括堆棧縮放方法對多種場景的適用性以及與當前標準技術相比性能的提高。在下一節中,我們不僅在視覺編碼方面而且在任務加領域的功能方面提出對上述文獻的分類。
3 任務和設計
在本節中,我們介紹域級任務和可視化技術的設計。
3.1 數據
在自然環境中研究動物的生物學家越來越多地使用自動記錄設備來記錄加速度、磁場強度、壓力、光強度和溫度等參數 [29,4,9]。這些設備從自由生活的動物那里獲取大量高質量的時間序列數據,這些數據可用于推導和量化動物的行為。人們普遍認為這種方法可以增強對生態和行為過程的理解。
3.2 領域表征
運動生態學家手動探索多個屬性的時間序列圖,以了解從信號到行為的映射[30]。通常,這是應用領域知識、檢查環境屬性和導出附加屬性(例如姿勢和能量使用)的組合。經過初步調查后,在標記整個部署期間發生的感興趣行為后對數據進行分析。當考慮長時間內高頻記錄的數據時,這是一個認知要求高且耗時的過程。分析結果將呈現給更廣泛的研究界。這通常涉及提取感興趣的信號并在包含在出版物或演示文稿中之前對其進行注釋。
3.3 探索、分析和呈現
有效的可視化可幫助用戶完成他們希望使用數據執行的任務。沃德等人。 [37]將探索、分析和呈現確定為用戶尋求通過可視化完成的三個抽象任務。第 2 節中的許多技術都存在可擴展性問題。方法在某種程度上受到顯示空間的限制,這影響了它們探索大數據的適用性。 Chronolenses 適合分析。堆棧縮放采用分層布局,適合演示(傳達假設和證據)。 TimeNotes 的構建考慮了所有三項任務。
我們進一步細分這三個抽象任務。
探索與分析
Shneiderman [31] 按數據類型分類提出了一項任務,其中列出了在大型數據集合中執行分析和探索所需的幾個低級任務:
T1。概述 - 獲得整個數據集合的概述。
T2。縮放 - 放大感興趣的數據項。
T3。過濾器 - 過濾掉不感興趣的項目。
T4。按需詳細信息 - 選擇一個項目或組并在需要時獲取詳細信息。
T5。關聯 - 查看項目之間的關系。
T6。歷史記錄 - 保留操作歷史記錄以支持撤消、重播,以便用戶可以追溯他們的步驟以顯示他們如何獲得結果。
T7。提取 - 允許提取子集合和查詢參數,以便一旦用戶獲得了他們想要的內容,可以將促進其發現的參數集發送給其他人,以說明他們所采取的步驟。
當具體處理時間序列數據時,我們還可以考慮 Miksch 等人提出和描述的 Andrienko 和 Andrienko [2] 以及 McEachren [24] 的任務模型。 [1]。
基本任務(Andrienko 和 Andrienko [2])包括數據元素查找、比較和關系查找。概要任務涉及數據的模式和趨勢以及數據內或與外部數據的關系。對于 McEachern 提出的任務列表,我們測試了識別方面(在我們的任務 B 和 C 中 - 參見第 5 節)和本地化方面(在我們的任務 D 和 E 中 - 參見第 5 節)。特別是,我們的任務 E 是高水平的,因為它測試行為模式何時發生,以及替代行為環境的順序和關系。定位任務(類似于概要任務)的具體示例是: 時間模式:(行為)模式發生的頻率是多少? (任務E);順序:(行為)模式發生的順序是什么? (任務E);我們還研究變化率(任務 C)。 Borgo 等人的一項用戶研究。 [5] 研究了基本任務在閱讀條形圖方面的表現。
可以看出,時間序列數據任務補充了Shneiderman任務分類法。前者側重于分析能力,而后者則建議為進行分析提供機制和環境。在 TimeNotes 中,我們為 Shneiderman 的所有任務提供功能,解決與行為模式有關的基本任務和概要任務(Andrienko 和 Andrienko [2, 1])以及識別和定位任務(McEachren [24, 1])。我們還提供演示意圖的功能。
呈現
艾格納等人。 [1]引入了將檢測到的事件實例合并到向用戶傳達相關信息的視覺表示中的三個要求,即溝通、強調和傳達。
現有的方法都不是以演示意圖構建的。在堆棧縮放中,在探索過程中會自動構建不相交的嵌套樹視圖,其中包含分層布局并充當構建演示視圖的管理界面。每個節點都標有堆棧坐標,用戶可以從中選擇要顯示的節點和子樹。然而,通過使用單獨的視圖,樹失去了與底層數據和堆棧縮放布局的上下文,而無法完全被視為演示工具。
4 TimeNotes
分層縮放[15]提供了一種有效的時間序列導航方法,允許用戶劃分信息空間并以所需的粒度構建僅相關數據的視圖,該視圖也充當用戶操作的隱式圖形歷史記錄。
在本節中,我們將介紹受堆棧縮放方法啟發的 TimeNotes(可在 http://framework4.co.uk/ 獲取)。它包含堆棧縮放之外的附加功能(例如,靈活的節點鏈接布局、覆蓋、書簽、提高閱讀層次結構可用性的平滑曲線、用于演示的融合交互以及具有可視化狀態導入/導出功能的集成工作區) 。 Chronolenses 不包括任何分層功能,這是這項工作的主要焦點,但確實包括疊加和優秀的分析工具,盡管我們提供類似的功能和改進的疊加。我們所有的新功能都有助于使用分層縮放來探索、分析和呈現時間序列數據。我們展示了 TimeNotes 滿足 Shneiderman 任務分類法的功能,并在基于任務的用戶研究中測試了這些功能,證明了它們的有效性。
在 TimeNotes 初始化時,整個數據集的概述被繪制在根節點 (T1) 的時間序列圖上(這些 T 數字參考第 3.3 節中的 Shneiderman 任務分類法)。在整個系列中應用橡皮筋選擇會更詳細地創建所選數據范圍的新縮放級別(稱為子節點)(T2)。每個節點都可以重復向下鉆取,以便以所需的詳細級別生成相關數據的層次結構。采用靈活的節點鏈接布局來表示生成的層次結構,允許用戶在二維觀察平面上將節點移動到合適的位置和大小。可以通過將節點和整個子樹折疊為書簽來過濾它們(T3)。這些可以稍后重新打開以進行進一步檢查或傳達相關數據。通過查看每個節點中包含的數據的統計摘要(例如,最小值、最大值、偏差),可以按需訪問每個節點的詳細信息 (T4)。將節點捕捉在一起將它們組合成一個重疊的時間序列圖,該圖允許感知時間區域之間的關系(即頻率和幅度)(T5)。創建的層次結構用作用戶操作的歷史記錄[15](T6),用戶可以從中構建相關數據子部分的可視化,以探索和分析數據。數據可以作為原始數據(傳感器)和/或派生數據(姿勢、能源使用)導出,以用于報告包含(SVG 導出)或交互式演示(通過我們的集成工作臺)(T7)。數據可以導出為 CSV 文件。我們在構建 TimesNotes 時就考慮到了演示。
圖 13 說明了 Condor 數據集上的 TimeNotes(參見第 2.1 節)。用戶在數據系列中選擇了幾種重復的撲動模式。數據太密集,無法識別根級別的行為,但可以通過檢查信號的高能量部分來獲得有關行為存在的指示。縮放顯示這些的詳細視圖,允許用戶區分信號。有趣的活動被添加了書簽(在數據系列的中間右側),該書簽被最小化,以便用戶稍后進一步探索。我們允許任何節點描述任何數據通道。該圖像主要描繪了加速度計(x 軸),其中一個切換到磁力計以查看熱行為(來自羅盤航向)。
4.1 布局
存在許多有效表示分層數據結構的方法 [3],我們建議讀者參閱 Munzner [26] 的第 9 章以了解概述。樹最常見的表示形式是節點鏈接圖[37]。這明確地說明了父子節點之間的關系,但代價是可視化占用的顯示空間。空間填充技術(例如,樹圖和堆棧縮放)試圖最佳地利用它們占用的空間,但是它們在表示樹的層次結構方面存在不足[35]。圖 12 顯示了它們的比較。感知節點之間的連接對于識別信號發生的上下文至關重要,這在執行高階任務時經常出現。出于演示目的,還需要考慮可視化的直觀性質,其中學習方面需要最小化。
TimeNotes 利用空間填充節點鏈接圖來表示分層縮放結構。每個子節點默認放置在其父節點的正下方并在其水平和時間范圍內(盡管用戶稍后可以移動和調整大小)。為每個子級分配的顯示空間與該層中表示的數據量成正比。如果添加或刪除新的子項,則重新計算每個子項占用的空間,以便最佳地使用顯示空間。
每個子節點的空間分配通過以下公式計算,計算寬度 wi =(s × Si),以及 2D 坐標 ( x i = ∑ j = 0 i ? 1 w j , y i = d × ( h + l s ) ) \left(x_i=\sum_{j=0}^{i-1}w_j,y_i=d\times(h+ls)\right) (xi?=∑j=0i?1?wj?,yi?=d×(h+ls))觀察平面上的子節點 i,其中 s = ( w / ∑ i = 0 N S i ) s=\begin{pmatrix}w/\sum_{i=0}^NS_i\end{pmatrix} s=(w/∑i=0N?Si??)是每個數據項的水平空間,w 是父節點的寬度,N 是子節點的數量,S 是包含的集合每個子項代表的數據項數量,d 是層次結構中的當前深度,h 是每個線圖的高度,ls 是每層之間的間距。這可以擴展到不同高度的節點。布局管理器維護節點從左到右的時間順序,以實現最佳的圖表可讀性。對節點進行排序還可以確保層之間的連接不會重疊,否則會遮擋顯示并使層次結構難以追蹤。一種特殊情況是子級的時間邊界重疊[15],為此,我們僅在整個數據邊界不重疊時重新調整位置,以最小化節點移動。
4.2 節點交互與渲染
層次結構中的每個節點都表示為一維折線圖。根節點表示整個數據系列,而層次結構中的所有其他節點表示數據的子集 (x1, x2),其中 x1 和 x2 表示數據子集的開始和結束索引,其中 x1 < x2 成立。每個節點都應用了多種交互技術來幫助完成用戶意圖。
可以通過拖動節點邊界矩形上的標記來調整節點的高度和寬度,從而允許用戶強調感興趣的節點。節點在 2D 平面上的自由移動允許用戶在顯示器上的任何位置重新定位節點。一旦移動其直接子節點之一,父節點的自動填充布局就會被禁用,這可以避免重新定位用戶有意移動的節點,并保留他們的信息空間心智圖。用戶可以隨時通過解鎖子節點來覆蓋此設置。
每個子節點代表的數據邊界以透明藍色覆蓋在父節點上。使用光標抓住關聯區域并拖動父節點即可平移數據集。子邊界 ((xc1, xc2)) 必須約束到父邊界 ((xp1, xp2)),使得 xc1 ≥ xp1 且 xc2 ≤ xp2。這可以防止用戶平移超出通過父級表示的數據子集的范圍。平移通過添加移動到每個可視化子范圍的偏移量來更新子節點中可視化的數據范圍以及層次結構中所有后續相關子節點。
分層布局僅限于可可視化的元素數量。為了釋放畫布空間,可以最小化節點和整個子樹。這樣做時,它們被表示為父節點下方的矩形部分,我們稱之為書簽。將鼠標懸停在書簽上會顯示基礎數據的圖形預覽。雙擊使用布局算法重新打開子樹。可以使用刪除鍵或右鍵菜單從層次結構中刪除節點。如果該節點是中間節點(即它包含子節點),則會詢問用戶是否要將已刪除節點的子樹移動到父節點的子樹(請參閱其他材料和視頻)。類似地,用戶可以隨時斷開下級節點并重新連接到層次結構中的任何上級節點。
4.3 疊加
在分析過程中,通常需要比較信號特征(例如頻率和幅度)。當它們在層次結構中位置較遠時,或者甚至在存在明顯差異時并排放置時,這可能會很困難。在 TimeNotes 中,將節點對齊在一起(通過將它們拖放到彼此的頂部)會將節點一起覆蓋到相同的一維線圖(圖 13 右樹)中,以允許直接比較信號。默認情況下,繪圖會被拉伸,以便它們在可視化中占據相同的顯示寬度。當現象的速度或時間發生變化時,這非常有用(參見動態時間扭曲[20])。如果情況并非如此,我們允許用戶將信號向左、中央或向右對齊,以保持彼此相關的時間持續時間。可以通過移動父平移滑塊來調整相位。連接被映射到疊加圖,每個連接都應用了獨特的顏色,該顏色也應用于疊加中的每條關聯線,因此用戶可以在每個信號的來源位置之間進行關聯,并通過關聯其在數據集中的時間位置。通過使用右鍵單擊菜單,可以將繪圖彼此分開并恢復到其在顯示屏上的原始位置。
4.4 注釋
在與數據交互時,用戶可能會對自己或他人有評論或見解。我們的注釋功能允許將文本放置在顯示空間的任何位置。注釋還可以附加到節點,以便它們隨節點移動并在節點最小化時隱藏。文本可以根據用戶的喜好調整大小和顏色。
數據工作區可以隨時保存并在以后重新打開。這使得 TimeNotes 可以在個人之間共享以交流發現。這還允許使用 TimeNotes 創建交互式演示文稿,作為使用當前演示軟件的替代方案。這為觀眾增加了額外的參與度。更重要的是,它可以直接訪問原始數據,這意味著可以在演示過程中顯示數據的完整上下文。
5 用戶研究
我們進行了一項用戶研究,以評估我們的新視覺設計相對于現有類似解決方案的有效性。考慮與 ChronoLenses [38] 進行比較,以測試專注于純數據分析的低級任務,但我們的主要重點是測試使用具有顯式節點鏈接關系的分層布局的功能。在這種情況下,與 Chronolenses 進行比較是不公平的,因為許多分層信息都隱含在可視化中。 TimeNotes 的設計很大程度上受到 Javed 等人提出的方法的啟發。 [15](在文檔的其余部分將被稱為 StackZoom),此外 Javed 等人。 [15]成功地將他們的方法與現有的最先進技術進行了比較;因此,我們決定從他們的發現出發,根據[15]中的描述重現堆棧縮放軟件,并將其用作我們有價值的對手。
為了設計我們的研究,我們咨詢了生物科學研究人員,以確定合適的任務,以解決圖表信息分析過程中潛在感興趣的問題。確定了一組四個主要操作:數據遍歷和標記、趨勢檢測和比較。進一步的審查允許將操作分為兩個主要類別:(層次結構)導航和比較。然后,每個動作被分解為其核心組件,每個組件被細化并轉化為一個任務,生成總共五個主要任務:葉子計數(任務 A)、幅度比較(任務 B)、頻率比較(任務 C)、標簽分析(任務 D),以及縮放/平移和標記(任務 E)。為了確保一致性,文檔的其余部分使用相同的符號。
5.1 任務和刺激設計
層次結構導航(葉子計數)- 任務 A。此任務的目標是衡量用戶遍歷刺激所代表的層次結構的能力。刺激是模擬的分層數據詢問,其中用戶做出了多個選擇,深入到幾個葉節點中的某些詳細行為。頂層描述了所有數據,最多包含在層次結構的第二層中預先選擇和擴展的三個段。進行進一步的選擇,產生內部節點或葉節點。任務是計算每個段的葉節點,并在相應的文本框中輸入答案。該時間是從呈現刺激到用戶單擊提交按鈕之間的時間來測量的。使用兩種可視化樣式呈現了六種不同的層次結構。每個問題出現兩次。這二十四個刺激以隨機順序呈現,并有一個限制,即相同的刺激必須至少相距三個問題。準確性通過通過/失敗來衡量用戶是否計算了該段的正確葉子數。
比較(幅度)- 任務 B。生物學家將比較整個數據集的行為幅度。例如,翅膀拍動的力量。此任務旨在衡量我們新的覆蓋功能的有效性。刺激是模擬的分層數據詢問,其中兩個葉節點靠近以比較信號的幅度。我們比較有和沒有覆蓋功能的書簽圖表,以及堆疊縮放圖表。在此任務中,存在三種可視化類型、六個層次結構,每個問題出現兩次。這三十六個刺激對隨機順序具有與上述相同的約束。時間是從刺激呈現到單擊提交按鈕。用戶必須選擇左信號或右信號是否具有最高幅度。準確度以通過/失敗來衡量。
比較(頻率)- 任務 C。通過信號比較行為中的特征頻率(例如,翅膀拍動的速度)。此任務旨在衡量我們新的覆蓋功能的有效性。刺激遵循與任務 B 相同的模式,只不過用戶現在確定哪個葉節點具有最高頻率。
層次結構導航(縮放/平移和標記)- 任務 D。我們模擬生物學家執行此任務的行為標記過程。為了簡化任務,我們用灰色塊突出顯示信號中的行為。用戶需要指出每一項是行為 A 還是 B(通過右鍵單擊塊并選擇適當的標簽)。該塊會變成代表該行為的顏色。在此任務中,我們增加了參與者的自由度,因為他們可以通過平移、選擇和標簽與層次結構進行交互。平移和縮放功能的引入可能會導致上下文丟失[8],因此我們決定在我們的系統中測試此功能的有效性。我們提出了 12 種刺激,其中一半啟用平移功能。
啟用平移功能后,用戶可以抓取樹的較高級別的段并將其左右移動,從而滾動樹的較低級別的信號。它提供了一種遍歷時間線的機制,允許以用戶感覺舒適的縮放級別檢查數據。我們呈現整個時間序列數據,并允許用戶以他們選擇的任何方式與時間序列交互,除了只有一半的刺激允許平移功能的限制。
我們提供了一個計數器,用于記錄剩余要標記的段數。我們要求用戶以將其歸零為目標,但不要花幾分鐘尋找最后剩下的一兩個片段。我們從呈現刺激到用戶點擊下一步進行計時。準確性是根據正確標記的行為數量來衡量的。
層次結構導航(標簽分析)- 任務 E。此任務的目標是衡量層次結構的更復雜的使用。首先,我們測試用戶在層次結構中定位目標行為的能力。這涉及掃描層次結構以查找特定模式。其次,我們測試用戶將找到的模式與整體數據時間線聯系起來的能力,這是理解時間序列數據的關鍵功能。第三,我們測試用戶感知剩余模式的時間順序的能力。
我們選擇滿足這些條件的任務是向用戶呈現一個層次結構,其中數據已使用兩種對比行為(A 和 B)進行分段和標記。用戶必須找到標記為 A 的段的第一次出現。這測試掃描以及與時間線的關系。他們還必須計算并標記其前面標記為 B 的段的出現次數。這測試了通過層次結構隱含的時間順序。它還需要層次結構導航。
我們通過在層次結構的第二最高級別中將線條透明度設置為 10% 來強制執行最后一個條件。在頂層,參與者無法辨別標記的片段是 A 還是 B,因為信號太密集。在第二級,這可能是可能的,因此可以在不參考層次結構的情況下對段進行計數。通過將線條設置為 10% 透明度,參與者將無法使用此快捷方式,并且被迫參考所呈現的層次結構。在實際情況下,數據會很密集,因此會使用層次結構,或者是否找到并采取捷徑也沒關系。出于用戶研究的目的,我們必須使用它來測試層次結構的有效性。
5.2 研究假設
在 TimeNotes 和 StackZoom 的比較中,我們提出了以下假設:
H1 任務 A - TimeNotes 的執行速度比 StackZoom 更快。我們認為,作為標準計數操作,沒有時間限制,兩種視覺設計在準確性方面表現相同;然而,層次鏈接結構的清晰度的提高將幫助參與者使用 TimeNotes 更快地找到目標。
H2 任務B和C - 帶有 Overlay 的 TaskBandC-TimeNotes 比不帶 Overlay 的 TimeNotes 和 StackZoom 執行得更快、更準確。由于疊加利用了基本的格式塔原理(例如分組效應),因此特征的自動對齊和重疊應該可以減輕計算幅度差異的心理任務,這可以簡化為測量內部和外部邊界之間的距離以及頻率峰值之間的距離。如果沒有覆蓋,用戶需要在心里執行對齊和轉換為獨特的參考系統的任務。因此,我們認為疊加功能將使參與者比沒有此類功能的類似視覺設計更快、更準確。沒有 Overlay 的 TimeNotes 和 StackZoom 之間預計沒有差異。
H3 任務 D - 具有平移選項的視覺設計將比不具有平移選項的相同視覺設計執行得更快。我們認為平移(StackZoom 和 TimeNotes 中都存在)是對圖表數據進行分析時的一個關鍵功能。平移可以減少層次結構的增長(當只有縮放選項可用時不可避免),并增加空間使用量。
H4 任務 E - TimeNotes 的執行速度比 StackZoom 更快。我們認為,作為一個標準的搜索操作,沒有時間限制,兩種視覺設計在準確性方面表現相同;然而,層次鏈接結構的清晰度的提高將幫助參與者使用 TimeNotes 更快地執行遍歷和目標搜索。
5.3 研究分析
進行了一項試點研究,涉及八名參與者,包括:合著者、四名研究生和我們的一名研究人員。連同初步結果的收集,我們旨在測試任務和學習的長度,以避免由于疲勞、刺激隨機化而產生的混雜效應,以確保同一刺激的重復在任務中不明顯,以及研究界面的穩健性。五名非作者參與者不知道任何這些因素。試點研究結果是積極的,并揭示了支持我們最初假設的數據趨勢,還注意到界面的小問題,特別是關于任務 D(唯一涉及直接交互的任務 D);主要研究中解決了所有問題。
因此,最終研究包括 5 項任務、128 種刺激、兩種視覺設計。補充材料包含用于參與者培訓的演示文稿。
5.4 實驗設置
參加者。 共有 30 名參與者(2 名女性,28 名男性)參加了這項實驗,并獲得了 10 英鎊的書券。參與者既屬于學生群體又屬于學術界。實驗的先決條件是微積分的基本知識,如折線圖、相位、頻率、幅度,以及熟悉層次結構和數據的層次組織等概念,因此招募僅限于數學、物理、計算機科學和工程系,對于二年級及以上的學生。年齡范圍為 20 至 54 歲(平均值 = 25.34,SD = 8.27)。所有參與者的視力均正常或矯正至正常視力,并且在課程開始之前并未被告知研究的目的。
儀器。視覺刺激和界面是使用 C++ 編寫的自定義軟件創建的,并以 OpenGL 和 QT 作為圖形庫。實驗使用 Intel 2.8GHz 四核 PC、4GB RAM 和 Windows 7 Enterprise 運行。顯示屏為 19 英寸 LCD,分辨率為 1440 × 900,顏色模式為 32 位 sRGB。每臺顯示器都調整為相同的亮度和對比度。參與者在昏暗的實驗室的桌子上使用標準鼠標與軟件進行交互。房間里沒有窗戶,使我們能夠保持恒定且均勻的照明環境。
程序。實驗開始時,實驗者使用預定義的腳本閱讀了簡短的概述。然后通過自定進度的幻燈片演示給出詳細說明。演示文稿包括對研究的描述,還簡要介紹了如何解釋每個視覺設計,以及在任務 D 的情況下,如何與兩種設計進行交互以實現標簽目的。如果需要,參與者還會收到演示文稿的彩色副本,以供研究期間參考。實驗分為 5 個主要部分,每個部分之間有休息的機會。
所有五項任務均按順序完成。鑒于實驗的性質,每個部分評估生物學家執行的分析過程的不同方面,如第 5.1 節所述。為每個參與者保持相同的部分順序意味著每個參與者經歷相似的實驗條件。這提高了所收集數據分析的穩健性。隨機性是在試驗層面引入的。在一項任務中,試驗是隨機的,以避免學習效果。每項任務之前都有培訓部分,以使參與者熟悉任務和視覺布局。
對于任務 A、D 和 E,總共完成了 4 次練習試驗(每個視覺布局兩次),對于任務 B 和 C,總共完成了 6 次練習(每個視覺布局兩次,這些任務中提供了 3 個布局選項)。每次訓練試驗都包括向參與者提供有關正確答案的反饋。如果需要,參與者被邀請在每項任務結束時短暫休息。一旦任務開始,參與者就被邀請不要休息。
該研究受到密切監控,至少有兩名實驗者始終在房間內,并且參與者遵守研究要求。在每項任務結束時,都會提交一份簡短的多項選擇問卷,以從參與者那里收集定性信息。研究結束時,每個參與者都完成了簡短的實驗后匯報訪談和問卷調查,以收集人口統計和進一步的定性信息。問卷調查和匯報的目的是獲得有關兩種可視化的實驗程序、設計和可用性的評論和建議。由于反饋的定性性質,結果用于支持對測試階段收集的定量結果的討論。兩種可視化始終作為有效選項呈現,特別是在后處理訪談期間,以保持公正的判斷并保持所收集的定性反饋的有效性。
5.5 分析結果
在我們的分析中,我們主要考慮任務與視覺編碼的影響。我們重點將新設計的 TimeNotes 性能與 StackZoom 方法進行比較,因為這是我們的主要研究問題。為了進行分析,我們首先通過 Shapiro-Wilk 檢驗測試數據正態性,該檢驗更適合小樣本量。對于正態分布的數據,使用重復測量方差分析(ANOVA)來檢驗組間差異,當數據表征非正態分布時,使用弗里德曼檢驗而不是非參數分布。兩項檢驗均假設標準顯著性水平 α = 0.05 來確定條件之間的統計顯著性。對于非正態分布的數據,通過對發現顯著性的相關組進行單獨的 Wilcoxon 簽名排序檢驗來進行事后分析。使用 Bonferroni 校正調整顯著性閾值,任務 C 和 D 的校正顯著性值為 α = 0.016。沒有發現時間和誤差數據都產生顯著結果的情況,因此沒有相關性分析,測試是否存在交易-需要關閉效果(例如,更少的時間導致更多的錯誤)。
層次結構導航(葉計數)- 任務 A 任務 A 中的性能(如圖 14 所示,作為視覺設計的函數進行了總結)揭示了條件之間存在顯著差異,Shapiro-Wilk 測試揭示了 TimeNotes (p ≤ 0.8) 和 StackZoom (p ≤ 0.3) 的性能呈正態分布。方差分析檢驗顯示響應時間具有顯著的主效應 (p ≤ 0.02)。準確性數據顯示非正態分布,Friedman 檢驗顯示主效應顯著(χ2 = 25.13,p < 0.02)。更仔細的分析表明:
- 平均準確度:TimeNotes(平均值= .95)明顯比StackZoom(平均值= .66)準確(p < 0.001);
- 平均響應時間:TimeNotes(平均值 = 2.27)明顯快于 StackZoom(平均值 = 4.81)(p < 0.001);
比較(幅度)- 任務 B。任務 B 的性能,如圖 15 中總結的那樣,作為視覺設計的函數,揭示了不同條件下的顯著變化,弗里德曼的檢驗顯示了在準確性(χ2 = 5.43,p ≤ 0.02)和響應時間(χ2 = 42.07,p < 0.001)。更仔細的分析表明:
- 平均準確度:帶覆蓋的TimeNotes(平均值= 1.0)明顯比不帶覆蓋的TimeNotes(平均值= .98)(p < 0.016)和StackZoom(平均值= .98)(p < 0.015)更準確;
- 平均響應時間:帶有 Overlay 的 TimeNotes(平均值 = 3.69)明顯快于沒有 Overlay 的 TimeNotes(平均值 = 7.23)(p ≤ 0.001)和 StackZoom(平均值 = 7.43)(p 0.001);
沒有發現其他顯著差異。
比較(頻率)- 任務 C。任務 C 中的性能,如圖 15 中總結的那樣,作為視覺設計的函數,揭示了不同條件下的顯著變化,弗里德曼的檢驗顯示了在準確性(χ2 = 7.68,p ≤ 0.02)和響應時間(χ2 = 32.07,p < 0.001)。更仔細的分析表明:
- 平均準確度:帶有 Overlay 的 TimeNotes(平均值 = 0.97)明顯比沒有 Overlay 的 TimeNotes(平均值 = 0.88)(p ≤ 0.016)和 StackZoom(平均值 = 0.89)(p 0.012)準確得多。
- 平均響應時間:帶有 Overlay 的 TimeNotes(平均值 = 4.46)明顯快于沒有 Overlay 的 TimeNotes(平均值 = 7.66)(p < 0.001)和 StackZoom(平均值 = 8.15)(p < 0.001);
沒有發現其他顯著差異。
縮放和平移(標簽) - 任務 D 圖 14 中總結了任務 D 中的性能,作為具有平移選項和不具有平移選項的視覺設計的函數,揭示了不同條件下響應時間的顯著變化。 Friedman 檢驗顯示主效應顯著(χ2 = 3.2,p ≤ 0.05),使用平移選項的視覺設計的平均響應時間(平均值 = 91.9)比不使用平移選項(平均值 = 105.68)(p < 0.04)顯著更準確。對正確標記事件與錯誤標記事件的準確性進行了進一步分析。 Friedman 檢驗顯示主效應(χ2 = 3.00,p = 0.059)。使用 Wilcoxon 符號秩檢驗進行的事后分析顯示,使用平移選項的視覺設計的平均準確度(平均值 = 0.96)明顯比不使用平移選項的視覺設計(平均值 = 0.91)準確(p ≤ 0.046)。
層次結構導航(標簽分析) - 任務E 任務 E 中的性能(在圖 14 中總結為視覺設計的函數)揭示了條件之間存在顯著差異,Shapiro-Wilk 測試揭示了 TimeNotes (p ≤ 0.13) 和 StackZoom (p ≤ 0.24) 的性能呈正態分布。方差分析測試顯示響應時間具有顯著的主效應 (p < 0.001)。準確性數據顯示非正態分布,Friedman 檢驗顯示主效應顯著(χ2 = 4.0,p ≤ 0.046)。更仔細的分析表明:
- 平均準確度:TimeNotes(平均值= .95)明顯比StackZoom(平均值= .81)準確(p < 0.001);
- 平均響應時間:TimeNotes(平均值 = 19.78)明顯快于 StackZoom(平均值 = 44.5)(p < 0.007);
5.6 用戶研究討論
我們的研究證實了第 5.2 節中所述的所有假設。我們還在所有任務的準確性上取得了顯著差異,而沒有任何權衡效果。
Javed 等人也指出,任務 A 和 E 的準確性結果出乎意料地增加,進一步證實了分層視覺布局對于數據導航和目標識別的有效性。 [15]。 TimeNotes 與 StackZoom 在任務 A 和 E 中的準確性和響應時間的差異可以通過 TimeNotes 信息分組設計的增加來解釋。信息分組對感知和注意力都有很強的影響[3??3],在TimeNotes中,這是通過加強節點鏈接結構的語義關系來實現的。 StackZoom 中顏色的使用可能還會增加額外的視覺復雜性,這會影響信息解碼的過程,例如每個層級的顏色解釋。實驗后訪談還證實了參與者對 TimeNotes 層次結構視覺編碼的偏好(“在任務 A 中用箭頭數葉子很困難,因為它讓父母模棱兩可。”(匿名),“我嘗試使用顏色(而不是箭頭)和深度優先搜索方法。”(匿名。)“雖然堆棧圖可用,但它細分數據的方式感覺不自然。隨著書簽圖遍歷層次結構,您必須考慮一下鏈接的位置。自動且自然。”(匿名))。
任務 B 和 C 在準確性和響應時間方面都達到了顯著性,這得出結論:在考慮比較/估計任務時,重疊是一個重要特征。公平地說,尤其是在任務 B 中,準確率結果接近最佳。看看樣本量的增加將如何影響新興趨勢將會很有趣。還值得注意的是,在這兩項任務中,我們只測試了對,當增加與兩個以上信號的比較次數時,測試對準確性的影響也會很有趣。
在任務 D 中,我們測試了通過引入平移、縮放和標簽來增加自由度對可視化界面中的用戶性能的影響。平移是當今用戶界面中普遍存在的導航方式,但是在分析大量數據時,增加交互可能會導致上下文丟失[8]。在杰特等人中。 [18]對平移與平移縮放進行了比較。結果顯示,前者的表現有所提高,但后者的表現卻沒有提高。任務 D 確認了在處理視覺搜索任務時集成在分層布局中的平移的有效性。當達到足夠的細節級別時,同時通過層次結構鏈接結構保留上下文,平移有助于快速掃描放大的數據(實驗后反饋:“任務 D。在平移不可用的情況下,我必須添加更大的視圖,然后重復標記后刪除它們”(匿名),“縮放功能使您可以非常輕松地放大到可用的級別,然后只需在繪圖上滑動,即可以有效的方式標記數據,但無需平移。這很大程度上是一個尋找數據的猜謎游戲,并且在不斷添加和刪除級別的過程中,當我打算標記一個片段時,我多次錯過了單擊和刪除節點的情況(匿名)。”收集的數據還顯示,啟用平移(53 次錯過)和未進行平移(110 次錯過)時錯過的事件數量之間存在巨大差異。
任務 D 和任務 E 是最復雜的任務,因為它們允許參與者通過縮放(例如,創建較低層次結構級別)、平移和標簽來主動與層次結構交互。當提供數據分段(任務 E)時,這兩個任務都具有較高的準確率和更快的響應速度,例如參與者需要將目標搜索限制為僅突出顯示的區域。任務 D 與任務 E 的響應時間結果證實了視覺搜索任務的復雜性在處理密集數據集合時更加突出。
6 實地研究討論
五年來,我們一直在與生物學家一起進行交互式可視化軟件使用的縱向研究。我們提供了使用可視化、模板匹配、視覺分析和機器學習來標記行為的工具[4,9,36]。這項關于分層圖表可視化的工作是從它們處理和呈現行為模式的方式開始的。
對于現場研究,我們在已經熟悉的軟件包中提供了有關新 TimeNotes 功能的培訓。生物學家利用該軟件(已安裝在他們的機器上)來檢查他們自己的動物數據。我們觀察他們使用該軟件并回答了提出的任何問題。在每個人都熟悉該軟件的使用后,我們舉行了一次會議,并舉行了類似焦點小組的討論,討論了功能。我們總結了他們的反饋如下。我們定期(每幾周)與生物學家會面。他們為我們提供了持續的反饋來源,我們利用這些反饋為他們的問題提供創新的解決方案。 TimeNotes 的靈感來自于這種不斷變化的循環。
縮放和平移提供概覽和效率。在總體層面上,他們需要了解部署是否成功。傳感器收集到數據了嗎?所有數據通道都收集了嗎?看起來合適嗎?它在收集期間有效嗎?對動物的依戀是否發生了變化?所有這些都可以通過檢查傳感器跡線在短時間內得到解答。對于前一個問題,可以在全局級別上進行,或者對于后一個問題,可以通過縮放和平移數據來實現。
我們在正式的用戶研究(任務 D)中證明了縮放和平移可以帶來標簽的好處。生物學家的反饋也同意這一點。 “你可以在不丟失上下文的情況下進行放大,這非常酷”。 “我們從信號中可以看出,此時項圈已經發生了移位”。
**分層布局有助于并排比較和思考不同尺度的行為。**為了支持行為發現,他們使用數據概述(一天中的時間和較大范圍內行為的持續時間)并縮小到更精細的行為,例如翅膀的拍打。這些通常是分層的。對于海鳥來說,頂部包含許多進食序列。每個序列都包含過度換氣、潛水、游泳、捕獲獵物、上升和休息的行為。生物學家標記整個序列,然后考慮每個潛水序列,標記每個組成部分,并在序列之間進行比較。他們查看不同的傳感器,看看是否在與其他傳感器不同的軸上更全面地捕獲了行為,或者例如環境傳感器來觀察潛水深度的水壓。我們的書簽設計在層次結構的各個級別之間提供了更清晰的鏈接。
我們在正式用戶研究(任務 A 和 E)中證明,書簽層次結構通過更清晰的層次結構組織提供了比堆棧縮放層次結構更豐富的上下文。它們可以在層次結構中的任何級別平移,較低級別可以同步移動(掛鎖在一起)或自行浮動。 “這對于識別個人行為非常有用”。
疊加有助于比較。通過將兩個圖表窗口對齊在一起,可以立即聚焦信號的兩個不同部分,以比較幅度或相位。例如,標簽通常被快速連續地部署在一些動物上,并且利用此功能可以比較不同動物的相同行為的速度和活力。我們在正式的用戶研究(任務 B 和 C)中證明,疊加功能比并排比較更準確、更快。
考慮演示功能有助于溝通。在傳達行為時,以前的軟件中的典型工作流程是定位行為,將該段導出為原始數據,將其讀入 Excel,創建折線圖,導出到 powerpoint 并注釋行為。同樣,包含在出版物中。這會丟失上下文信息,并且通常還需要新的數據(視覺)掃描來定位行為。我們通過允許用戶重新定位書簽來構建演示的想法。級別可以最小化和最大化。文本可以與書簽關聯以添加注釋。可以保存工作區域以供將來參考。折線圖可以導出為原始數據或 SVG。本文中的所有圖形都是使用該軟件生成的,其優點是 SVG 是矢量化的,有助于在出版物中進行縮放。這沒有在正式的用戶研究中進行測試,因為它是該軟件特有的功能,并且比上述工作流程更快、更好。反饋是,這對于演示、教學很有用,并將加快成果納入出版物的速度。
7 結論
在本文中,我們比較評估了探索時間序列數據的現有方法,對每種方法進行了圖形化概述,并對它們探索數據和與數據交互的能力進行了分類。基于此,我們引入了 TimeNotes,一種用于可視化時間序列數據并與之交互的分層導航技術。我們進行并報告實證研究和實地研究。我們測試環境的靜態和交互特征,確認最先進技術的有效性及其與新穎方法的集成。我們的研究結果表明,TimeNotes 為時間序列數據的探索、分析和呈現提供了更有效的工作環境。我們還展示了 RiverLens(圖 7),它是 River Plot [7] 和 SignalLens [21] 的組合。我們沒有在論文中進一步評論或評估這一點,因為它是我們與生物學家討論和評估的一部分,生物學家希望在軟件的未來版本中看到這種組合。作為未來的工作,我們希望將其合并到 TimeNotes 中并對其進行評估。我們尋求對 TimeNotes 的用戶與界面交互進行額外評估,并探索交互式鏡頭與多焦點界面的結合使用。