人工智能-基礎篇-14-知識庫和知識圖譜介紹(知識庫是基石、知識圖譜是增強語義理解的知識庫、結構化數據和非結構化數據區分)

在人工智能(AI)領域,知識圖譜(Knowledge Graph)和知識庫(Knowledge Base)是兩種重要的知識表示和管理技術,它們的核心目標是通過結構化的方式組織信息,從而支持智能系統的推理、決策和知識應用。

1、知識庫(Knowledge Base)

定義:
知識庫是一種特殊的數據庫,用于存儲結構化的信息,如:存儲實體的屬性、規則或簡單關系。它通常以關系型數據庫或本體(Ontology)的形式存在,強調數據的存儲和高效查詢。

簡單理解:
知識庫可以被看作是一個龐大的信息集合,其中的數據經過組織、分類,并且易于檢索和使用。例如,維基百科或百度百科等就是一個隱式知識庫,盡管它的內容不是完全結構化的。

特點:

  • 結構化存儲:數據以表格或固定格式存儲(如數據庫表),便于快速檢索。
  • 靜態性:知識庫中的數據通常是預定義的,更新頻率較低。
  • 規則驅動:可能包含邏輯規則(如專家系統的推理規則),用于簡單推理。
  • 應用場景:適合存儲實體屬性(如商品價格、用戶信息)或簡單關系(如“用戶A購買了商品B”)。

典型應用:

  • 客服系統:存儲常見問題與答案的映射。
  • 推薦系統:基于用戶行為數據的關聯規則生成推薦。
  • 專家系統:基于規則的知識庫(如醫療診斷規則庫)。

2、知識圖譜(Knowledge Graph)

定義:
知識圖譜則是構建于知識庫之上的一種更加復雜的模型,旨在以圖形的形式表示實體之間的關系。它不僅包含了數據本身,還強調了這些數據之間的語義聯系。

知識圖譜是一種圖結構的知識庫,通過節點(實體)和邊(關系)表示現實世界中的復雜關聯。它不僅存儲實體的屬性,還通過語義關系(如“位于”“屬于”“影響”)連接實體,形成多維度的語義網絡。

簡單來說,知識圖譜就是一種基于圖的數據結構,其中節點代表實體(比如人、地方、事件),邊則表示實體間的關系。

特點:

  • 圖結構:以節點和邊的形式表示知識,直觀體現實體間的復雜關系。
  • 語義關聯:每個實體和關系都有明確的意義,有助于更深層次的理解和推理。(如“馬化騰-創辦-騰訊”)實現跨實體的知識鏈接。
  • 動態擴展性:支持從多源異構數據(如文本、數據庫、API)中動態抽取知識。
  • 推理能力:基于圖算法(如路徑分析、社區發現)進行隱含關系挖掘和推理。

典型應用:

  • 搜索引擎:Google知識圖譜用于提供搜索結果的語義關聯(如人物簡介、相關事件)。
  • 智能問答:通過圖譜關系直接回答復雜問題(如“馬云的國籍是什么?”)。
  • 金融風控:分析企業間的股權關系、擔保鏈等復雜網絡。
  • 醫療診斷:關聯疾病、癥狀、藥品之間的多維關系。

3、知識圖譜vs知識庫

主要區別:
雖然兩者都涉及到了對信息的管理和利用,但是它們之間存在一些關鍵差異。
表現如下:

  • 結構形式:知識庫可能采用多種格式存儲信息(如表格、文本),而知識圖譜特指那種基于圖的結構。
  • 用途:知識庫主要用于存儲信息;知識圖譜除了存儲之外,還強調了如何理解和運用這些信息來進行智能分析和決策支持。
  • 復雜程度:知識圖譜往往比傳統意義上的知識庫更為復雜,因為它不僅要考慮數據本身,還要考慮數據之間的邏輯關系及含義。

詳細對比:
在這里插入圖片描述

4、在人工智能中的作用

知識庫的作用:

  • 數據支撐:為機器學習模型提供基礎數據(如訓練集標簽)。
  • 規則引擎:結合符號主義AI,實現基于規則的推理(如專家系統)。
  • 輕量級知識管理:適合中小規模、結構化的知識存儲。

知識圖譜的作用:

  • 增強語義理解:為自然語言處理(NLP)提供上下文關聯(如實體消歧)。
  • 提升生成能力:結合RAG(檢索增強生成)技術,為大模型提供外部知識支持。
  • 復雜決策支持:通過圖譜關系挖掘隱性知識(如供應鏈風險分析)。
  • 跨領域知識融合:整合多領域數據(如醫療+金融),支持跨域推理。

5、典型案例

1、Google知識圖譜

  • 包含數十億實體及其關系,支持搜索時的語義關聯(如“埃菲爾鐵塔高度”直接顯示答案)。

2、電商平臺知識圖譜

  • 關聯商品、用戶、評論、品牌等實體,支持“買了又買”推薦。

3、醫療知識圖譜

  • 整合疾病、癥狀、藥品、檢查等數據,輔助醫生診斷。

4、金融風控知識庫

  • 存儲用戶信用評分規則,用于貸款審批決策。

6、知識庫和知識圖譜總結

  • 知識庫是基礎的數據存儲工具,適合結構化、靜態的知識管理;
  • 知識圖譜是更高級的知識表示形式,通過圖結構和語義關系支持復雜推理;
  • 兩者的融合:現代AI系統常將兩者結合,例如用知識圖譜增強知識庫的語義能力,同時用知識庫支撐圖譜的底層數據。

7、擴展1:結構化數據和非結構化數據

1、結構化數據(Structured Data)

  • 定義:結構化數據是指那些可以輕易地以固定格式或模型進行存儲、處理和訪問的數據。這種數據通常是有明確定義的數據類型,并且可以通過二維表格的形式來表示。

  • 特征:

    • 數據具有預定義的數據模型。
    • 易于搜索、查詢和分析,因為其格式固定且一致。
  • 優點:

    • 方便使用SQL等語言進行查詢。
    • 數據一致性高,易于管理和維護。
    • 高效的數據檢索性能。
  • 例子:客戶信息表(包含姓名、地址、電話號碼等字段)、產品庫存記錄等。

2、非結構化數據(Unstructured Data)

  • 定義:非結構化數據指的是沒有預先定義的數據模型或者不符合傳統數據庫表格形式的數據。這類數據難以用常規的方法進行分類和組織,因此處理起來更加復雜。

  • 特征:

    • 缺乏固定的結構,不能直接放入傳統的行列表格中。
    • 包含各種類型的信息,例如文本文件、圖像、音頻、視頻等。
    • 處理時需要專門的技術手段,比如自然語言處理技術用于分析文本,計算機視覺技術用于解析圖像等。
  • 優點:

    • 能夠捕捉更廣泛的信息類型,適用于更多樣化的應用場景。
    • 可以為決策提供豐富的背景資料和支持。
  • 例子:電子郵件內容、社交媒體帖子、圖片、音頻錄音、視頻文件等。

3、簡單總結

有固定格式,能以字符表示,且能夠被人類直接閱讀和理解的數據,都屬于結構化數據。
如:Java中的字符串、JSON對象、CSV中的行等。

沒有固定格式或結構,內容無法直觀提取信息,通常以字節流形式存儲的數據,都屬于非結構化數據。
如:圖片、音頻、視頻、PDF 文件整體內容 是典型的非結構化數據。

向陽而生,Dare To Be!!!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/87362.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/87362.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/87362.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

7月1日作業

思維導圖 一、將當前的時間寫入到time.txt的文件中,如果ctrlc退出之后,在再次執行支持斷點續寫 1.2022-04-26 19:10:20 2.2022-04-26 19:10:21 3.2022-04-26 19:10:22 //按下ctrlc停止,再次執行程序 4.2022-04-26 20:00:00 5.2022-04-26 20:0…

DHCP中繼及動態分配

DHCP中繼 在多 VLAN 網絡中為什么不能直接用 DHCP? 比如你現在的網絡是:PC 在 VLAN10、VLAN20 中DHCP服務器(Router0)在另一個網段(比如 192.168.100.0/24)PC 的 DHCP Discover 是廣播,無法跨越…

ROS 概述與環境搭建

1. ROS 簡介 1.1 ROS 誕生背景 機器人是一種高度復雜的系統性實現,機器人設計包含了機械加工、機械結構設計、硬件設計、嵌入式軟件設計、上層軟件設計....是各種硬件與軟件集成,甚至可以說機器人系統是當今工業體系的集大成者。 機器人體系是相當龐大的…

mac python3.13 selenium安裝使用

一、安裝 # 進入虛擬環境 workon xxxx pip install selenium二、安裝驅動 查詢自己瀏覽器版本 /Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --versionGoogle Chrome 138.0.7204.93下載對應的驅動,其他版本 sudo mv ~/Downloads/chromedr…

AI 開發平臺:中小企業的創新破局點在哪里?

在浙江義烏的一個小商品加工廠里,老板王建國最近有點煩。訂單量忽高忽低,原材料價格波動不定,他想通過數據分析提前規劃生產,卻苦于沒有專業的技術團隊;在廣東東莞的一家電子配件公司,業務員李娜每天要處理…

.NET 8.0 Redis 教程

一、環境準備 1. 安裝 Redis 服務器 Windows/macOS/Linux:使用 Docker 快速部署 bash docker run -d --name redis -p 6379:6379 redisLinux:直接安裝 bash sudo apt-get install redis-server sudo systemctl start redis-server2. 創建 .NET 項目 b…

2025年游戲鼠標推薦,游戲鼠標推薦,打CSGO(羅技、雷蛇、卓威、ROG、漫步者、賽睿、達爾優)

可能很多人對于游戲鼠標的了解還是不夠深,會有很多疑問,比如:“游戲鼠標和辦公鼠標的區別”、“游戲鼠標無線好還是有線好”等等一系列的問題,本文將會介紹游戲鼠標領域處于領先地位的幾個廠家:羅技鼠標、雷蛇鼠標、賽…

OpenCV CUDA模塊設備層-----在 GPU上高效地執行兩個uint類型值的最小值比較函數vmin2()

操作系統:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 編程語言:C11 算法描述 OpenCV 的CUDA模塊(cudev) 中的一個設備端內聯函數,用于在GPU上高效地執行兩個uint類型值的最小值比較。 該函…

Web3與傳統網絡安全模型對比:關鍵差異解析

隨著互聯網技術的飛速發展,Web3的概念逐漸成為人們關注的焦點。Web3代表著一個更加去中心化、安全和用戶友好的網絡環境。與傳統的網絡安全模型相比,Web3在多個方面展現出了其獨特的優勢和特點。本文將深入探討Web3與傳統網絡安全模型之間的關鍵差異。 …

FLAN:微調語言模型是 Zero-Shot 學習者

摘要 本文探討了一種簡單的方法來提升語言模型的零樣本學習能力。我們展示了指令微調——即在通過指令描述的數據集集合上對語言模型進行微調——能夠顯著提升模型在未見任務上的零樣本表現。 我們以一個擁有1370億參數的預訓練語言模型為基礎,在60多個通過自然語…

springboot中的事件發布和監聽

事件定義 創建一個自定義事件類 UserLoginEvent,繼承 ApplicationEvent,用于攜帶用戶登錄信息: import org.springframework.context.ApplicationEvent;public class UserLoginEvent extends ApplicationEvent { //關鍵點1:ext…

“開源雙軌架構+40億參數擴散Transformer——ComfyUI-OmniGen2本地部署教程:重塑多模態生成的效率邊界!

一、簡介 OmniGen2 是由北京智源研究院最新推出的一個強大、高效的開源多模態生成模型。與 OmniGen v1 不同,OmniGen2 具有兩種不同的文本和圖像模態解碼路徑,利用非共享參數和解耦的圖像分詞器。OmniGen2 在四個主要功能方面具有競爭力的性能&#xff…

Java的SpringAI+Deepseek大模型實戰之會話記憶

文章目錄 背景項目環境實現步驟第一步、定義會話存儲方式方式一、定義記憶存儲ChatMemory方式二、注入記憶存儲ChatMemory 第二步、配置會話記憶方式一、老版本實現方式二、新版本實現 第三步、存儲會話信息 異常處理1、InMemoryChatMemory 無法解析 背景 前兩期【環境搭建】和…

RDS MySQL vs. Aurora MySQL:高需求工作負載的終極遷移指南

在 AWS 上,開發團隊最常見且關鍵的決策之一就是選擇合適的關系型數據庫。通常,討論會從 RDS for MySQL 這個可靠且熟悉的“老黃牛”開始。但很快,就會有人提到一個更強大、更云原生的選項:Aurora MySQL。 也許,就像最…

使用倉頡編程語言是一種怎樣的體驗?

2024年6月21日下午,華為終端BG軟件部總裁龔體先生在華為開發者大會主題演講《鴻蒙原生應用,全新出發!》中向全球開發者介紹了華為自研倉頡編程語言,并發布了HarmonyOS NEXT倉頡語言開發者預覽版。這是華為首次公開倉頡編程語言。 …

Qt Creator自定義控件開發流程

Qt Creator自定義控件開發流程 在 Qt 5.9 Creator 中開發自定義控件的完整流程如下,分為設計、實現、集成和測試四個階段: 1. 創建自定義控件類 (1) 新建類文件 右鍵項目 → 添加新文件 → C Class基類選擇 QWidget 或現有控件(如 QPushBu…

翻譯《The Old New Thing》- 如何創建一個與屏幕大小相同的窗口,而不會被當作全屏窗口處理?

How can I create a window the size of the screen without it being treated as a fullscreen window? - The Old New Thinghttps://devblogs.microsoft.com/oldnewthing/20250522-00/?p111211 問題描述 任務欄允許全屏窗口覆蓋它。這樣,當你在放映幻燈片或進行…

深分頁末日救星:MySQL延遲關聯原理與實戰手冊

MySQL 深分頁(如 LIMIT 100000, 10)本質是 高代價的偏移量掃描,可通過以下方案優化,附核心原理和實操示例: 一、深分頁為什么慢? SELECT * FROM orders ORDER BY id DESC LIMIT 100000, 10; 執行過程&…

前端技術棧 —— HTML、CSS和JavaScirpt執行環境

以下內容由GLM回答生成,不保證正確性。 前端技術棧 —— HTML、CSS和JavaScirpt執行環境 JavaScript 的執行環境HTML 和 CSS 的執行環境HTML 和 CSS 是否可以在其他環境中執行?總結 JavaScript 是一種 解釋型語言,但它也可以被編譯。JavaScr…

多項式帶余除法——線性代數題目為例

一、多項式帶余除法的定義 二、例題 使用方法將在例題中展示: