Datawhlale_快樂學習大模型_task02_NLP 基礎概念

書籍地址

簡要總結一下個人理解

文章目錄

    • 1.1 NLP
    • 1.2 發展歷程
    • 1.3 NLP任務
      • 1.3.1 中文分詞
      • 1.3.2 子詞切分
      • 1.3.3 詞性標注
      • 1.3.4 文本分類
      • 1.3.5 實體識別
      • 1.3.6 關系抽取
      • 1.3.7 文本摘要
      • 1.3.8 機器翻譯
      • 1.3.9 自動問答
    • 1.4 文本表示的發展
      • 1.4.1 詞向量
      • 1.4.2 語言模型
      • 1.4.3 Word2Vec
      • 1.4.4 ELMo

1.1 NLP

英文:Natural Language Processing
全程:自然語言處理
含義:通過計算機模擬人類認知和使用語言

1.2 發展歷程

  1. 早期探索:1940 - 1960年代
  2. 符號注意與統計方法:1970 - 1990年代
  3. 機器學習與深度學習:2000年代至今

1.3 NLP任務

1.3.1 中文分詞

把句子分解成字和詞

英文輸入:The cat sits on the mat.
英文切割輸出:[The | cat | sits | on | the | mat]中文輸入:今天天氣真好,適合出去游玩.
中文切割輸出:["今天", "天氣", "真", "好", ",", "適合", "出去", "游玩", "。"]

1.3.2 子詞切分

對詞語進一步切分,對于英文unhappiness分別成un前綴、happi詞根、ness后綴

1.3.3 詞性標注

標注為名詞、動詞、形容詞

1.3.4 文本分類

對于給定文本,將其進行分類

文本:“NBA季后賽將于下周開始,湖人和勇士將在首輪對決。”
類別:“體育”文本:“美國總統宣布將提高關稅,引發國際貿易爭端。”
類別:“政治”文本:“蘋果公司發布了新款 Macbook,配備了最新的m3芯片。”
類別:“科技”

1.3.5 實體識別

從文本中抽取人名、地名還是時間等

輸入:李雷和韓梅梅是北京市海淀區的居民,他們計劃在2024年4月7日去上海旅行。輸出:[("李雷", "人名"), ("韓梅梅", "人名"), ("北京市海淀區", "地名"), ("2024年4月7日", "日期"), ("上海", "地名")]

1.3.6 關系抽取

抽取實體以及它們的聯系,是構建知識圖譜的基礎

輸入:比爾·蓋茨是微軟公司的創始人。輸出:[("比爾·蓋茨", "創始人", "微軟公司")]

1.3.7 文本摘要

對給定的文本做個總結

  1. 抽取式摘要
    從原文摘取,簡單但不夠通順

  2. 生成式摘要
    自己生成,需要復雜的模型

1.3.8 機器翻譯

Machine Translation, MT

1.3.9 自動問答

Automatic Question Answering, QA
過程:

  1. 理解問題
  2. 提供答案

分類:

  1. 檢索式問答(Retrieval-based QA):從搜索引擎找答案
  2. 知識庫問答(Knowledge-based QA):根據構建的知識庫給答案
  3. 社區問答(Community-based QA):根據用戶社區論壇給答案

1.4 文本表示的發展

在計算機中如何表示文本是一個難題

1.4.1 詞向量

類似于onehot,詞匯表存在所有可能出現的詞語,每個詞語就是詞匯表一個的01向量,問題是數據稀疏維數災難

# "雍和宮的荷花很美"
# 詞匯表大小:16384,句子包含詞匯:["雍和宮", "的", "荷花", "很", "美"] = 5個詞vector = [0, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ...]
#                    ↑          ↑          ↑          ↑          ↑
#      16384維中只有5個位置為1,其余16379個位置為0
# 實際有效維度:僅5維(非零維度)
# 稀疏率:(16384-5)/16384 ≈ 99.97%

1.4.2 語言模型

N-gram 模型:基于馬爾可夫假設,一個詞的出現概率僅依賴于它前面的N-1個詞
優點:簡單、易于理解
問題:N較大,數據稀疏、參數大;忽略詞之間的依賴關系,無法捕捉句子結構和語義

1.4.3 Word2Vec

是一種詞嵌入(Word Embedding)技術,由Tomas Mikolov等人在2013年提出

架構:

  1. 續詞袋模型CBOW(Continuous Bag of Words):根據目標詞上下文中的詞對應的詞向量, 計算并輸出目標詞的向量表示(適用于小型數據集)-根據上下文猜目標詞
  2. Skip-Gram模型:利用目標詞的向量表示計算上下文中的詞向量(在大型語料中表現更好)-根據目標詞猜上下文

優點:密集向量
缺點:基于局部上下文的,無法捕捉到長距離的依賴關系,缺乏整體的詞與詞之間的關系

1.4.4 ELMo

Embeddings from Language Models
過程:

  1. 預訓練
  2. 使用雙向LSTM結構

優點:

  1. 捕捉到詞匯的多義性和上下文信息
  2. 生成的詞向量更加豐富和準確

問題:

  • 模型復雜度高、訓練時間長、計算資源消耗大等。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/88175.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/88175.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/88175.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AUTOSAR圖解==>AUTOSAR_AP_SWS_Persistency

AUTOSAR 持久化功能集群解析 1. 引言 AUTOSAR (AUTomotive Open System ARchitecture) 適配平臺中的持久化功能集群(Persistency Functional Cluster)是一個核心組件,為應用程序提供數據持久化服務。本文檔詳細分析了AUTOSAR持久化功能集群的架構、主要組件和工作…

Ollama常用命令詳解:本地大語言模型管理指南

前言 Ollama是一個強大的本地大語言模型管理工具,讓我們可以輕松地在本地部署和運行各種開源大模型。本文將詳細介紹Ollama的核心命令使用方法,幫助您快速上手本地AI模型的管理和使用。 1. 查看已安裝模型 - ollama list 基本用法 ollama list功能說…

[免費]SpringBoot+Vue共享單車信息系統【論文+源碼+SQL腳本】

大家好,我是java1234_小鋒老師,看到一個不錯的SpringBootVue共享單車信息系統【論文源碼SQL腳本】,分享下哈。 項目視頻演示 【免費】SpringBootVue共享單車信息系統 Java畢業設計_嗶哩嗶哩_bilibili 項目介紹 快速發展的社會中&#xff…

內網提權-DC-3靶場實驗(Ubantu16.04)

靶場地址 https://download.vulnhub.com/dc/DC-3-2.zip 打開DC-3 使用kali掃描獲取靶場ip 目錄掃描獲取后臺地址 弱口令admin/snoopy進入后臺 此處可寫入一句話木馬 創建文件寫入一句話木馬 哥斯拉上線 使用lsb_release -a命令查看內核版本 方法一 使用ubuntu漏洞庫發現該…

Nginx:互斥鎖 accept_mutex配置

如何配置 Nginx 的互斥鎖 accept_mutex 1. 理解 accept_mutex 的作用 accept_mutex 是 Nginx 用于控制多工作進程(worker processes)接收新連接時避免「驚群問題(Thundering Herd)」的機制。 啟用時(accept_mutex o…

aws(學習筆記第四十六課) codepipeline-build-deploy

文章目錄 aws(學習筆記第四十六課) codepipeline-build-deploy學習內容:1. 代碼鏈接及整體架構1.1 代碼鏈接1.2 整體架構1.2.1 初始化階段的`codecommit repo`以及`codebuild project`設定1.2.2 創建`vpc`,`public alb`,`alb listener`以及`fargate service`等1.2.3 創建`so…

Vue 項目中的組件職責劃分評審與組件設計規范制定

在現代前端系統中,Vue(無論是 2.x 還是 3.x)提供了良好的組件化機制,為構建復雜交互系統打下了基礎。然而,隨著項目規模增長,組件職責不清、代碼重疊、維護困難等問題頻發,嚴重影響開發效率與可…

react 的過渡動畫

一、React的過渡動畫 1、react-transition-group 在開發中,我們想要給一個組件的顯示和消失,添加某種過渡動畫,可以很好的增加用戶體驗, React社區為我們提供了react-transition-group用來完成過渡動畫, React曾為…

深度學習:PyTorch人工神經網絡優化方法分享(1)

本文目錄: 一、從梯度角度入手(一)梯度下降算法回顧(二)常用優化算法1.SGD(Stochastic Gradient Descent)- 隨機梯度下降2.BGD (Batch Gradient Descent) - 批量梯度下降3.MBGD (Mini-Batch Gra…

(三)yolov5——模型訓練

一、準備數據 先準備一個MP4的視頻 1.測試一幀 使用opencv來提取每一個視頻的幀 先使用以下代碼查看一幀的內容,是否符合預期 import cv2 import matplotlib.pyplot as plt# 打開視頻文件 video cv2.VideoCapture("111.mp4") # 讀取一幀 ret, frame…

008 Linux 開發工具(下) —— make、Makefile、git和gdb

🦄 個人主頁: 小米里的大麥-CSDN博客 🎏 所屬專欄: Linux_小米里的大麥的博客-CSDN博客 🎁 GitHub主頁: 小米里的大麥的 GitHub ?? 操作環境: Visual Studio 2022 文章目錄 Linux 開發工具(下)Linux 項目自動化構建工…

前綴和題目:連續的子數組和

文章目錄 題目標題和出處難度題目描述要求示例數據范圍 解法思路和算法代碼復雜度分析 題目 標題和出處 標題:連續的子數組和 出處:523. 連續的子數組和 難度 5 級 題目描述 要求 給定一個整數數組 nums \texttt{nums} nums 和一個整數 k \tex…

隊的簡單介紹

隊列:只允許在一端進行插入數據操作,在另一端進行刪除數據操作的特殊線性表,隊列具有先進先出 FIFO(First In First Out)的特點。 入隊列:進行插入操作的一端稱為隊尾。 出隊列:進行刪除操作的一端稱為隊頭。 入隊列…

AI-Sphere-Butler之如何將豆包桌面版對接到AI全能管家~新玩法(一)

環境: AI-Sphere-Butler VBCABLE2.1.58 Win10專業版 豆包桌面版1.47.4 ubuntu22.04 英偉達4070ti 12G python3.10 問題描述: AI-Sphere-Butler之如何將豆包桌面版對接到AI全能管家~新玩法(一) 聊天視頻: AI真…

【STM32】啟動流程

1、.s啟動文件解析 STM32的啟動文件(一般是.s匯編文件,如startup_stm32f407xx.s)是STM32上電后執行的第一段代碼,承擔著“系統初始化化引導員”的角色。 它的主要作用是設置初始化棧指針(SP)、程序計數器&…

【vim】通過vim編輯器打開、修改、退出配置文件

通過vim編輯器打開任一配置文件 vim /etc/profile 英文輸入下,按i鍵進入INSERT模式,修改配置文件 完成修改后,按esc鍵退出INSERT模式 英文輸入下,輸入":wq!",即可保存并退出 :q #不保存并退出 :q! …

Effective Modern C++ 條款6:當 auto 推導類型不符合預期時,使用顯式類型初始化慣用法

在C開發中,auto關鍵字以其簡潔性和高效性被廣泛使用。然而,“自動推導”并非萬能,尤其在某些特殊場景下,auto的推導結果可能與開發者預期不符,甚至導致未定義行為。今天,我們以《Effective Modern C》條款6…

學習Linux進程凍結技術

原文:蝸窩科技Linux進程凍結技術 功耗中經常需要用到,但是linux這塊了解甚少,看到這個文章還蠻適合我閱讀的 1 什么是進程凍結 進程凍結技術(freezing of tasks)是指在系統hibernate或者suspend的時候,將…

GitHub 趨勢日報 (2025年06月22日)

📊 由 TrendForge 系統生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日報中的項目描述已自動翻譯為中文 📈 今日獲星趨勢圖 今日獲星趨勢圖 624 LLMs-from-scratch 523 ai-engineering-hub 501 n8n 320 data-engineer-handb…

kotlin中為什么新增擴展函數功能?

在 Kotlin 中,擴展函數的本質是「不修改原有類代碼,為其新增功能」,這源自編程中「開閉原則」(對擴展開放,對修改關閉)的第一性原理。 核心需求:當需要給第三方庫的類(如 Android 的…