知識圖譜正在成為跨各個領域組織和檢索信息的強大工具。它們越來越多地與機器學習和自然語言處理技術相結合,以增強信息檢索和推理能力。在本文中,我介紹了一種用于構建知識圖譜的三層架構,結合了固定本體實體、文檔片段和提取的命名實體。通過利用嵌入和余弦相似度,這種方法提高了檢索效率,并允許在查詢期間更精確地遍歷圖。該方法提出了構建基于固定實體的知識庫的方法,提供了一種可擴展且成本效益高的替代大型語言模型(LLM)的方案,同時符合當前檢索增強生成(RAG)系統的發展趨勢。
之前的一篇用于構建知識圖譜的固定實體架構,利用嵌入將其用作檢索增強生成(RAG)解決方案中檢索步驟的向量數據庫。這篇文章的目的是介紹使用預定義本體構建圖的概念。這個本體是基于一個簡單的示例句子:“阿爾伯特·愛因斯坦發展了相對論,這一理論革新了理論物理和天文學。”我展示了如何在不依賴昂貴的 LLM 方法的情況下,輕松創建基于知識圖譜的向量數據庫。
簡而言之,所介紹的方法涉及創建兩個實體層。第一層節點,我們可以稱之為固定實體層(FEL1),代表可以通過領域專家使用其知識、經驗或來自特定領域的某些真實文檔構建的本體“骨架”。第二層由你希望用作實際知識庫的文檔組成。這些文檔被分成片段并作為文檔節點存儲在基于 Neo4j 的知識圖譜中。
這種方法的關鍵在于兩個層之間的連接。通過計算第一層(FEL1)和第二層之間