文章目錄
- 知識圖譜數據模型
- 知識圖譜查詢語言
????隨著知識圖譜規模的日益增長,數據管理愈加重要。一方面,以文件形式保存的知識圖譜顯然無法滿足用戶的查詢、檢索、推理、分析及各種應用需求;另一方面,傳統數據庫的關系模型與知識圖譜的圖模型之間存在顯著差異,關系數據庫無法有效地管理大規模知識圖譜數據。為了更好地進行三元組數據的存儲,語義萬維網領域發展出專門存儲RDF數據的三元組庫;數據庫領域發展出用于管理屬性圖的圖數據庫。雖然目前沒有一種數據庫系統被公認為具有主導地位的知識圖譜數據庫,但可以預見,隨著三元組庫和圖數據庫的相互融合發展,知識圖譜的存儲和數據管理手段將愈加豐富和強大。首先介紹圖數據模型和圖查詢語言等基本知識:以演示操作的方式講解各種主流知識圖譜數據庫,包括基于關系數據庫的存儲方案、面向RDF的三元組數據庫和原生圖數據庫;以圖數據庫Neo4為例介紹圖模型數據的底層存儲細節,同時梳理圖數據索引和查詢處理等關鍵技術;最后,以ApacheJena為例,針對知識圖譜數據庫開源工具進行實踐。
知識圖譜數據模型
????從數據模型角度來看,知識圖譜本質上是一種圖數據。不同領域的知識圖譜均須遵循相應的數據模型。往往一個數據模型的生命力要看其數學基礎的強弱,關系模型長盛不衰的一個重要原因是其數學基礎為關系代數。知識圖譜數據模型的數學基礎源于有著近300年歷史的數學分支一圖論。在圖論中,圖是二元組G=(V,E),其中V是節點集合,E是邊集合。知識圖譜數據模型基于圖論中圖的定義,用節點集合表示實體,用邊集合表示實體間的聯系,這種一般和通用的數據表示恰好能夠自然地刻畫現實世界中事物的廣泛聯系。RDF是W3C制定的在語義萬維網上表示和交換機器可理解信息的標準數據模型。在RDF三元組集合中,每個Web資源具有一個HTTPURI作