關于人工智能AI>ML>DL>transformer及NLP的關系

一、AI、ML、DL、NLP的極簡概念

1、人工智能(AI)有不同的定義,但其中一個定義或多或少已成為共識,即AI是一個計算機系統,它能夠執行通常需要人類智能才能完成的任務。根據這個定義,許多算法可以歸納為AI算法,比如導航應用程序所用的交通預測算法或策略類視頻游戲所用的機遇規則的系統。從表面看,這些示例中,計算機似乎需要智能才能完成相關任務。

圖片

??從AI到Transformer的嵌套技術組合

2、機器學習(machine learning,ML)是AI的一個子集,在ML中,我們不試圖直接實現AI系統使用的決策規則。相反,我們試圖開發算法,使系統能夠通過示例數據自己學習。

3、深度學習(deep learning,DL)算法已經引起了廣泛關注。DL是ML的一個分支,專注于受大腦結構啟發的算法,這些事算法倍稱為人工神經網絡(artifical neural network)。它們可以處理大量的數據,并別在圖像識別、語音識別及NLP等任務上表現出色。

4、自然語言處理(Natural language process,NLP)是ML和AI的一個子領域。專注于使計算機能夠處理、解釋和生產人類語言,現代NLP解決方案基于ML算法。NLP的目標是讓計算機能夠處理自然語言文本。這個目標設計諸多任務,例如文本分類、自動翻譯、問題回答。

5、GPT-4和ChatGPT基于一種特定的神經網絡架構(即Transformer),基于大量數據訓練而成的NLP領域中的大語言模型(LLM),它們能夠以非常高的準確性識別和生成人類可讀的文本。

二、Transformer如何呼之欲出的

Transformer是一種基于自注意力機制的深度學習模型,由Google2017年提出。徹底改變了NLP領域的序列建模方式,它通過并行計算和全局依賴建模,解決了傳統循環神經網絡(RNN)的長距離依賴難題,成為現代大模型(如BERT、GPT)的基石。經歷了下面三個主要階段。

1、LLM的發展可以追溯到幾年前,它始于簡單的語言模型,如n-gram模型,n-gram模型通過使用詞頻來根據前面的詞預測句子中的下一個詞,因此又稱為概率模型,其預測結果是在訓練文中中緊隨前面的詞出現的頻率最高的詞。雖然這種方法提供了不錯的著手點,但是n-gram模型在理解上下文和語法方面仍需改進,因為它有時會生成不連貫的文本。

2、為了提高n-gram模型的性能,人們引入了更先進的學習算法,包括循環神經網絡(recurrent neural network,RNN)和長短期記憶(long short-term memory,LSTM)網絡。與n-gram模型相比,這些模型能夠學習更長的序列,并且能夠更好地分析上下文,但他們在處理大量數據時的效率仍然欠佳。盡管如此,在很長的一段時間里,這些模型算法是最高效的。因此在自動翻譯等任務中被廣泛使用。

3、Transformer架構徹底改變了NLP領域,這主要是因為它能夠有效地解決之前的NLP模型(如RNN)存在的一個關鍵問題:很難處理長文本序列并記住其上下文。換句話說,RNN在處理長文本序列時容易忘記上下文(也就是臭名昭著的“災難性遺忘問題”),Transformer則具備高效處理和編碼上下文的能力。改變的核心是注意力機制。

--素材來自《大模型應用開發極簡入門》和網絡材料

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/91608.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/91608.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/91608.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

小迪23-28~31-js簡單回顧

前端-js開發 課堂完結后欲復習鞏固也方便后續-重游-故寫此篇 從實現功能過渡到涉及的相關知識點 知識點 1、 JS 是前端語言,是可以被瀏覽器“看到”的,當然也可以被修改啊,被瀏覽器禁用網頁的 JS 功能啊之類的。所以一般都是前后端分離開發&…

vue項目預覽pdf隱藏工具欄和側邊欄

1.在預覽PDF時,PDF查看器通常會顯示工具欄、側邊欄等控件。如果想隱藏這些控件,可以通過在PDF文件的URL中添加參數來實現。可以使用#toolbar0和#navpanes0等參數來隱藏工具欄和側邊欄。解釋: #toolbar0:隱藏工具欄。#navpanes0&am…

ERP、CRM、OA整合工具哪家好?2025年最新推薦

當前,大多數中大型企業已部署了ERP(企業資源計劃)、CRM(客戶關系管理)、OA(辦公自動化)等核心業務系統。這些系統在各自職能領域內發揮著關鍵作用:ERP管理財務、供應鏈與生產&#x…

設計模式:命令模式 Command

目錄前言問題解決方案結構代碼前言 命令是一種行為設計模式,它可將請求轉換為一個包含與請求相關的所有信息的獨立對象。該轉換讓你能根據不同的請求將方法參數化、延遲請求執行或將其放入隊列中,且能實現可撤銷操作。 問題 假如你正在開發一款新的文字…

4-verilog簡單狀態機

verilog簡單狀態機 1. always (posedge clk or negedge rst_n) beginif (!rst_n)cnt_1ms < 20b0;else if (cnt_1ms_en)cnt_1ms < cnt_1ms 1b1;elsecnt_1ms < 20d0; endalways (posedge clk or negedge rst_n) beginif(!rst_n)cur_state < s1_power_init;else i…

ICCV2025 | 對抗樣本智能安全方向論文匯總 | 持續更新中~

匯總結果來源&#xff1a;ICCV 2025 Accepted Papers 若文中出現的 論文鏈接 和 GitHub鏈接 點不開&#xff0c;則說明還未公布&#xff0c;在公布后筆者會及時添加. 若筆者未及時添加&#xff0c;歡迎讀者告知. 文章根據題目關鍵詞搜索&#xff0c;可能會有遺漏. 若筆者出現…

SPI通信中CS片選的兩種實現方案:硬件片選與軟件片選

一. 簡介本文簡單熟悉一下SPI通信中的片選信號&#xff08;CS&#xff09;的兩種實現方案&#xff1a;硬件片選和軟件片選&#xff0c;以及兩種方案的區別&#xff0c;如何選擇。在SPI&#xff08;Serial Peripheral Interface&#xff09;通信中&#xff0c;片選信號&#xff…

IBM 報告稱除美國外,全球數據泄露成本下降

IBM 發布的一份針對 113,620 起數據泄露事件的年度全球分析報告發現&#xff0c;平均數據泄露成本同比下降了 9%&#xff0c;這主要歸功于更快的發現和遏制速度。 該報告與波耐蒙研究所 (Ponemon Institute) 合作完成&#xff0c;發現全球平均數據泄露成本從 2024 年的 488 萬美…

Docker Compose 部署 Dify + Ollama 全棧指南:從裸奔到安全可觀測的 AI 應用實戰

&#x1f4cc; 摘要 本文以中國開發者視角出發&#xff0c;手把手教你用 Docker Compose 在本地或輕量云主機上部署 Dify Ollama 組合棧&#xff0c;實現“安全、可觀測、可擴展”的私有化 AI 應用平臺。全文約 8 000 字&#xff0c;包含&#xff1a; 架構圖、流程圖、甘特圖…

「源力覺醒 創作者計劃」_全方面實測文心ERNIE-4.5-VL-28B-A3B開源大模型

「源力覺醒 創作者計劃」_全方面實測文心ERNIE-4.5-VL-28B-A3B開源大模型1. 文心大模型4.5-28B概述2. 部署ERNIE-4.5-VL-28B-A3B文心大模型2.1. 創建GPU云主機2.2. ERNIE-4.5-VL-28B-A3B部署2.3. 創建大模型API交互接口3. 文心大模型4.5-28B多方面性能評測3.1. 語言理解方面3.2…

數據庫學習------數據庫事務的特性

在數據庫操作中&#xff0c;事務是保證數據一致性和完整性的核心機制。無論是簡單的單表更新&#xff0c;還是復雜的多表關聯操作&#xff0c;事務都扮演著至關重要的角色。那么什么是數據庫事務&#xff1f;數據庫事務是一個不可分割的操作序列&#xff0c;它包含一個或多個數…

18-C語言:第19天筆記

C語言&#xff1a;第19天筆記 內容提要 構造類型 結構體共用體/聯合體構造類型 數據類型 基本類型/基礎類型/簡單類型 整型 短整型&#xff1a;short – 2字節基本整型&#xff1a;int – 4字節長整型&#xff1a;long – 32位系統4字節/ 64位系統8字節長長整型&…

centos下安裝anaconda

下載 anaconda 安裝包 wget https://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh 2. 授權 chmod x Anaconda3-2022.05-Linux-x86_64.sh 3. 安裝 ./Anaconda3-2022.05-Linux-x86_64.sh 此時顯示Anaconda的信息&#xff0c;并且會出現More&#xff0c;繼續…

MySQL(172)如何進行MySQL的全局變量設置?

MySQL的全局變量是影響整個服務器設置和行為的參數。可以在服務器啟動時通過配置文件設置這些變量&#xff0c;也可以在服務器運行時通過SQL命令動態調整。以下是關于如何設置和管理MySQL全局變量的詳細說明和示例代碼。 一、通過配置文件設置全局變量 在MySQL服務器啟動時&…

【最后203篇系列】030 強化學習探索

前言 我發現在csdn寫完一篇文章越來越難了&#xff0c;有n篇寫了一半沒往下寫。原來我覺得補完203篇&#xff0c;湊到一千篇是個很簡單的事&#xff0c;沒想到還挺難的。 我回想了一下&#xff0c;過去一年大模型領域繼續發生這很劇烈的變化&#xff0c;這是一種新的模式 &…

fastGEO v1.7.0 大更新,支持PCA、差異分析、火山圖、熱圖、差異箱線圖、去批次等分析

前言 之前一篇文章【fastGEO V1.6.1 這個版本強的可怕&#xff0c;GEO數據自動下載、探針注釋、Shiny App】介紹了fastGEO用于GEO數據下載和探針注釋的核心功能。 雖然是付費50獲取安裝包&#xff08;剛開始是20&#xff09;&#xff0c;但也深受歡迎&#xff0c;說明這個R包…

LLM 典型模型技術特性及項目落地全流程實踐

在大語言模型(LLM)技術快速迭代的當下,開發者面臨的核心挑戰已從 “是否使用” 轉變為 “如何正確選型并高效落地”。本文將系統剖析當前主流 LLM 的技術特性,結合實際項目架構,提供從模型選型、接口集成到性能優化的全流程技術方案,并附關鍵代碼實現,為工業級 LLM 應用…

機器學習消融實驗:方法論演進、跨領域應用與前沿趨勢

一、定義與起源 消融實驗&#xff08;Ablation Study&#xff09;是一種系統性移除或修改模型關鍵組件以評估其對整體性能貢獻的實驗方法論。其術語源于神經科學和實驗心理學&#xff08;20世紀60-70年代&#xff09;&#xff0c;指通過切除動物腦區研究行為變化的實驗范式。2…

北京-4年功能測試2年空窗-報培訓班學測開-今天來聊聊我的痛苦

最近狀態很不對勁&#xff0c;因為我很少花時間好好思考&#xff0c;只是處于執行狀態&#xff0c;甚至也不太寫筆記了&#xff0c;我原以為這樣會更高效&#xff0c;現在想想&#xff0c;開始不愿花時間深思才是斷弦的開始吧而且從結課后我有了隱瞞&#xff0c;我不想過多透露…

深度解析 | AI 幻覺的形成和應對路徑

寫這一篇的緣由一是因為我也在摸索如何降低 AI 幻覺提升 AI 工具使用效率&#xff0c;二是因為前兩周在MIT學習時老師講的一節課&#xff0c;剛好也解釋了這個問題&#xff0c;所以一并做個總結&#xff0c;分享給大家。 近幾年&#xff0c;大型語言模型&#xff08;LLM&#…