【語言處理和機器學習】概述篇(基礎小白入門篇)

?前言

自學筆記,分享給語言學/語言教育學方向的,但對語言數據處理感興趣但是尚未入門,卻需要在論文中用到的小伙伴,歡迎大佬們補充或繞道。ps:本文不涉及公式講解(文科生小白友好體質)~(部分講解會參考知乎等平臺)

本文重點:語言學數據處理框架下的,機器學習方法的整體概述。

1.機器學習是做什么的?

2.機器學習有哪些分類?

3.每種分類具體對應哪些方法?

一.機器學習是做什么的?

? 機器學習使計算機可以從語言數據中學習人類語言的規律,在理解、生成、分析等方面逼近人類水平。機器學習的核心是讓機器通過學習數據自動提取知識進行預測和決策

結合簡單語言學處理實例介紹簡單機器學習的主要處理邏輯:

實例:以【新聞文本體裁分類】為例,希望訓練一個模型,能夠自動將新聞文章分為體育娛樂財經科技等不同的類別。

基本步驟定義語言學數據實例
---------------------------------------------------基礎步驟(必須有!)----------------------------------------------------------
1.數據準備收集和預處理用于訓練和測試的數據。這一步至關重要,數據質量直接影響模型性能。
  • 收集大量不同體裁的新聞文章

  • 對文章進行分詞等語言指標抽出,例如:平均句長,動詞使用率等(自變量)

  • 標注每篇文章的體裁類別(響應變量)

2.劃分數據集將數據分為訓練集、驗證集和測試集。訓練集用于訓練模型,驗證集用于調參和選擇模型,測試集用于評估模型的泛化能力。
  • 將標注好的新聞文章數據隨機劃分為訓練集和測試集

  • 訓練集用于訓練分類模型,測試集用于評估模型效果

3.模型選擇與訓練根據任務和數據的特點,選擇合適的機器學習算法(如決策樹、神經網絡等),并使用訓練集對模型進行訓練,讓模型學習數據中的模式。
  • 選擇合適的分類算法,如樸素貝葉斯、支持向量機等

  • 用訓練集訓練分類模型,讓模型學習不同體裁的文本特征

4.性能評估使用驗證集評估模型性能,通過交叉驗證等方法選擇最優模型和超參數。再用測試集評估模型的泛化性能。
  • 用測試集評估模型在各個體裁上的分類準確率

  • 選擇整體分類效果最好的模型

--------------------------------------------------------附加步驟(有更好!)-------------------------------------------------------
5.模型優化分析模型錯誤,進行優化,如增加訓練數據、調整模型結構、引入正則化等。性能評估和優化往復進行,不斷提升模型。
  • 分析模型分錯的文章,總結規律

  • 優化措施:如增加訓練數據、調整模型參數、嘗試其他算法等

  • 多次迭代,不斷提升分類效果

6.模型應用將訓練好的模型部署到實際的應用場景中,對新數據進行預測。
  • 將訓練好的新聞體裁分類模型集成到新聞推薦系統中

  • 對新來的文章自動預測其體裁,再推薦給對應興趣的用戶

7.反饋優化收集實際應用中的新數據和反饋,優化模型,形成迭代閉環。
  • 收集用戶反饋,分析體裁分類錯誤對推薦效果的影響

  • 持續迭代優化分類模型,提高整個系統的用戶體驗

二.機器學習有哪些分類?

1.有監督學習(教師あり學習)

  • 訓練數據中包含了輸入及其對應的預期正確輸出(標簽)
  • 目標是學習輸入到輸出的映射函數,用于預測新數據的輸出
  • 廣泛應用于分類回歸任務,如文本分類、圖像識別等

語言學處理實例:

  • 詞性標注:以詞性標注的語料庫為訓練集,學習詞性分類模型,自動標注新文本
  • 語法糾錯:以正確和錯誤的句子對為訓練數據,學習語法糾錯模型,自動檢查和修正語法錯誤
  • 語音識別:以語音-文本對為訓練數據,學習語音轉錄模型,實現語音到文本的自動轉換
  • 閱讀理解:以文本-問題-答案三元組為訓練數據,學習閱讀理解模型,自動回答文本內容的問題

2.無監督學習(教師なし學習)

  • 訓練數據沒有標簽,只有輸入本身
  • 目標是發現數據內在的結構和模式,如聚類、關聯、降維
  • 常用于數據壓縮、異常檢測、推薦系統等

語言學處理實例:

  • 詞聚類:無監督地將語料庫中的詞匯按語義聚成不同的類,發現詞匯的語義關系
  • 話題發現:從大量文本語料中無監督地提取隱含的主題,理解語料的話題結構
  • 字詞表示學習:從海量語料中自主學習詞嵌入表示,刻畫詞匯的語義特征,用于各種下游NLP任務
  • 語言結構發現:從未標注的語料中自主學習短語結構、句法結構等,發現語言的結構規律

3.強化學習(強化學習)

  • 通過智能體(Agent)與環境的交互來學習最優策略
  • 沒有直接的監督標簽,而是根據行為獲得的獎勵或懲罰來優化
  • 適用于序貫決策問題,如游戲、機器人控制、自動化運營等

語言學處理實例:

  • 對話生成:通過強化學習訓練對話系統,根據人類反饋優化對話策略,生成更自然、貼切的回復
  • 語言游戲:設計益智的語言交互游戲,通過強化學習訓練游戲AI,提供智能的游戲陪練,供學習者練習
  • 寫作評分:將自動作文評分系統建模為強化學習過程,通過學生反饋和專家打分等獎勵信號,持續優化評分策略
  • 教育個性化:將個性化教學決策建模為強化學習問題,通過學生學習過程數據及反饋,自適應優化個性化教學策略

    總的來說,有監督學習需要人工標注數據,學習明確的目標;而無監督學習讓算法自主探索數據的內在規律。而強化學習通過主動探索和試錯來優化系統行為,以獲得最大化的累積獎勵。

    三.每種機器學習所對應的具體方法

    (了解!之后推文會詳細介紹)

    分類常用方法
    有監督學習
    • - 線性回歸 (Linear Regression)

    • -邏輯回歸 (Logistic Regression)

    • - 決策樹 (Decision Tree)

    • - 隨機森林 (Random Forest)

    • 支持向量機 (Support Vector Machine, SVM)

    • - K近鄰 (K-Nearest Neighbors, KNN)

    • - 樸素貝葉斯 (Naive Bayes)

    無監督學習
    • - K均值聚類 (K-Means Clustering)
    • - 層次聚類 (Hierarchical Clustering)
    • - 高斯混合模型 (Gaussian Mixture Model, GMM)
    • - 主成分分析 (Principal Component Analysis, PCA)
    • - 潛在語義分析 (Latent Semantic Analysis, LSA)
    強化學習
    • - Q學習 (Q-Learning)
    • - SARSA學習 (State-Action-Reward-State-Action)
    • - 蒙特卡洛方法 (Monte Carlo Methods)
    • - 時序差分學習 (Temporal Difference Learning)

    本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
    如若轉載,請注明出處:http://www.pswp.cn/web/66581.shtml
    繁體地址,請注明出處:http://hk.pswp.cn/web/66581.shtml
    英文地址,請注明出處:http://en.pswp.cn/web/66581.shtml

    如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

    相關文章

    小程序獲取微信運動步數

    1、用戶點擊按鈕&#xff0c;在小程序中觸發getuserinfo方法&#xff0c;獲取用戶信息 <scroll-view class"scrollarea" scroll-y type"list"><view class"container"><button bind:tap"getLogin">獲取</button&…

    leetcode——找到字符串中所有字母異位詞(java)

    給定兩個字符串 s 和 p&#xff0c;找到 s 中所有 p 的 異位詞 的子串&#xff0c;返回這些子串的起始索引。不考慮答案輸出的順序。 示例 1: 輸入: s "cbaebabacd", p "abc" 輸出: [0,6] 解釋: 起始索引等于 0 的子串是 "cba", 它是 "…

    LDN的藍牙雙模鍵盤幫助文檔

    文檔索引 已支持的PCB列表(僅列出少部分)&#xff1a;鍵盤特性硬件軟件鍵盤以及驅動藍牙模式USB模式 驅動功能介紹主界面鍵盤列表頁面鍵盤配置&#xff08;使用雙模鍵盤的請務必細看本說明&#xff09;功能層配置(改鍵)觸發層配置(改FN鍵等觸發功能)功能選擇&#xff08;重要&a…

    STM32 FreeRTOS 信號量

    信號量的簡介 reeRTOS中的信號量是一種用于任務間同步和資源管理的機制。信號量可以是二進制的&#xff08;只能取0或1&#xff09;也可以是計數型的&#xff08;可以是任意正整數&#xff09;。信號量的基本操作包括“獲取”和“釋放”。 比如動車上的衛生間&#xff0c;一個…

    Android SystemUI——系統快捷設置面板(十三)

    通過前面的內容我們了解了 SystemUI 的啟動流程以及相關組件的加載流程,同時也詳細介紹了導航欄的創建和加載流程,對于 SystemUI 的組件來說,除了導航欄之外,下拉快捷設置面板也是比較重要的一個組件。 一、快捷設置面板 快捷設置面板(Quick Settings, QS)是 Android 系…

    C 語言雛啟:擘畫代碼乾坤,諦觀編程奧宇之初瞰

    大家好啊&#xff0c;我是小象?(?ω?)? 我的博客&#xff1a;Xiao Xiangζ????? 很高興見到大家&#xff0c;希望能夠和大家一起交流學習&#xff0c;共同進步。* 這一課主要是讓大家初步了解C語言&#xff0c;了解我們的開發環境&#xff0c;main函數&#xff0c;庫…

    VSCode下EIDE插件開發STM32

    VSCode下STM32開發環境搭建 本STM32教程使用vscode的EIDE插件的開發環境&#xff0c;完全免費&#xff0c;有管理代碼文件的界面&#xff0c;不需要其它IDE。 視頻教程見本人的 VSCodeEIDE開發STM32 安裝EIDE插件 Embedded IDE 嵌入式IDE 這個插件可以幫我們管理代碼文件&am…

    Linux內核編程(二十一)USB驅動開發

    一、驅動類型 USB 驅動開發主要分為兩種&#xff1a;主機側的驅動程序和設備側的驅動程序。一般我們編寫的都是主機側的USB驅動程序。 主機側驅動程序用于控制插入到主機中的 USB 設備&#xff0c;而設備側驅動程序則負責控制 USB 設備如何與主機通信。由于設備側驅動程序通常與…

    論文筆記-arXiv2025-A survey about Cold Start Recommendation

    論文筆記-arXiv2025-Cold-Start Recommendation towards the Era of Large Language Models: A Comprehensive Survey and Roadmap 面向大語言模型&#xff08;LLMs&#xff09;時代的冷啟動推薦&#xff1a;全面調研與路線圖1.引言2.前言3.內容特征3.1數據不完整學習3.1.1魯棒…

    C#使用WMI獲取控制面板中安裝的所有程序列表

    C#使用WMI獲取控制面板中安裝的所有程序列表 WMI 全稱Windows Management Instrumentation,Windows Management Instrumentation是Windows中用于提供共同的界面和對象模式以便訪問有關操作系統、設備、應用程序和服務的管理信息。如果此服務被終止&#xff0c;多數基于 Windo…

    風光并網對電網電能質量影響的matlab/simulink仿真建模

    這個課題早在一幾年的時候比較熱門&#xff0c;之前作電科院配電網的一個項目中也有所涉及&#xff0c;我把其中一部分經典仿真模型思路分享給大家&#xff0c;電能質量影響這部分&#xff0c;我在模型中主要體現的就是不同容量的光伏、風電接入&#xff0c;對并網點的電壓影響…

    Ubuntu 24.04 LTS linux 文件權限

    Ubuntu 24.04 LTS 文件權限 讀權限 &#xff1a;允許查看文件的內容。寫權限 (w)&#xff1a;允許修改文件的內容。執行權限 (x)&#xff1a;允許執行文件&#xff08;對于目錄來說&#xff0c;是進入目錄的權限&#xff09;。 文件權限通常與三類用戶相關聯&#xff1a; 文…

    第13章:Python TDD完善貨幣加法運算(二)

    寫在前面 這本書是我們老板推薦過的&#xff0c;我在《價值心法》的推薦書單里也看到了它。用了一段時間 Cursor 軟件后&#xff0c;我突然思考&#xff0c;對于測試開發工程師來說&#xff0c;什么才更有價值呢&#xff1f;如何讓 AI 工具更好地輔助自己寫代碼&#xff0c;或許…

    .Net Core微服務入門全紀錄(六)——EventBus-事件總線

    系列文章目錄 1、.Net Core微服務入門系列&#xff08;一&#xff09;——項目搭建 2、.Net Core微服務入門全紀錄&#xff08;二&#xff09;——Consul-服務注冊與發現&#xff08;上&#xff09; 3、.Net Core微服務入門全紀錄&#xff08;三&#xff09;——Consul-服務注…

    C#防止重復提交

    C#防止重復提交 文章目錄 C#防止重復提交前言防止重復提交的思路Web API 防止重復提交代碼實現代碼講解使用方法 MVC防止重復提交總結 前言 當用戶在前端進行提交數據時&#xff0c;如果網絡出現卡頓和前端沒有給出響應的話顧客通常都會狂點提交按鈕&#xff0c;這樣就很容易導…

    python學opencv|讀取圖像(三十九 )閾值處理Otsu方法

    【1】引言 前序學習了5種閾值處理方法&#xff0c;包括(反)閾值處理、(反)零值處理和截斷處理&#xff0c;還學習了一種自適應處理方法&#xff0c;相關文章鏈接為&#xff1a; python學opencv|讀取圖像&#xff08;三十三&#xff09;閾值處理-灰度圖像-CSDN博客 python學o…

    嵌入式硬件篇---PID控制

    文章目錄 前言第一部分&#xff1a;連續PID1.比例&#xff08;Proportional&#xff0c;P&#xff09;控制2.積分&#xff08;Integral&#xff0c;I&#xff09;控制3.微分&#xff08;Derivative&#xff0c;D&#xff09;控制4.PID的工作原理5..實質6.分析7.各種PID控制器P控…

    日志收集Day001

    1.ElasticSearch 作用&#xff1a;日志存儲和檢索 2.單點部署Elasticsearch與基礎配置 rpm -ivh elasticsearch-7.17.5-x86_64.rpm 查看配置文件yy /etc/elasticsearch/elasticsearch.yml&#xff08;這里yy做了別名&#xff0c;過濾掉空行和注釋行&#xff09; yy /etc/el…

    集合帖:前綴和及差分模板題 ← 一維及二維

    【一維前綴和及一維差分知識點】 ● 一維“前綴和數組”預處理過程&#xff1a;cin>>a[i], sum[i]sum[i-1]a[i] 或者 cin>>sum[i], sum[i]sum[i-1] &#xff08;1≤i≤n&#xff09; ● 一維“區間和”計算過程&#xff1a;sum[y]-sum[x-1] &#xff08;y…

    《offer 來了:Java 面試核心知識點精講 -- 框架篇》(附資源)

    繼上篇文章介紹了《offer 來了&#xff1a;Java 面試核心知識點精講 -- 原理篇》書后&#xff0c;本文章再給大家推薦兄弟篇 《offer來了&#xff1a;Java面試核心知識點精講--框架篇》&#xff0c; 簡直就是為Java開發者量身定制的面試神器。 本書是對Java程序員面試中常見的…