?前言
自學筆記,分享給語言學/語言教育學方向的,但對語言數據處理感興趣但是尚未入門,卻需要在論文中用到的小伙伴,歡迎大佬們補充或繞道。ps:本文不涉及公式講解(文科生小白友好體質)~(部分講解會參考知乎等平臺)
本文重點:語言學數據處理框架下的,機器學習方法的整體概述。
【1.機器學習是做什么的?】
【2.機器學習有哪些分類?】
【3.每種分類具體對應哪些方法?】
一.機器學習是做什么的?
? 機器學習使計算機可以從語言數據中學習人類語言的規律,在理解、生成、分析等方面逼近人類水平。機器學習的核心是讓機器通過學習數據,自動提取知識,進行預測和決策。
結合簡單語言學處理實例介紹簡單機器學習的主要處理邏輯:
實例:以【新聞文本體裁分類】為例,希望訓練一個模型,能夠自動將新聞文章分為體育、娛樂、財經、科技等不同的類別。
基本步驟 | 定義 | 語言學數據實例 |
---------------------------------------------------基礎步驟(必須有!)---------------------------------------------------------- | ||
1.數據準備 | 收集和預處理用于訓練和測試的數據。這一步至關重要,數據質量直接影響模型性能。 |
|
2.劃分數據集 | 將數據分為訓練集、驗證集和測試集。訓練集用于訓練模型,驗證集用于調參和選擇模型,測試集用于評估模型的泛化能力。 |
|
3.模型選擇與訓練 | 根據任務和數據的特點,選擇合適的機器學習算法(如決策樹、神經網絡等),并使用訓練集對模型進行訓練,讓模型學習數據中的模式。 |
|
4.性能評估 | 使用驗證集評估模型性能,通過交叉驗證等方法選擇最優模型和超參數。再用測試集評估模型的泛化性能。 |
|
--------------------------------------------------------附加步驟(有更好!)------------------------------------------------------- | ||
5.模型優化 | 分析模型錯誤,進行優化,如增加訓練數據、調整模型結構、引入正則化等。性能評估和優化往復進行,不斷提升模型。 |
|
6.模型應用 | 將訓練好的模型部署到實際的應用場景中,對新數據進行預測。 |
|
7.反饋優化 | 收集實際應用中的新數據和反饋,優化模型,形成迭代閉環。 |
|
二.機器學習有哪些分類?
1.有監督學習(教師あり學習)
- 訓練數據中包含了輸入及其對應的預期正確輸出(標簽)
- 目標是學習輸入到輸出的映射函數,用于預測新數據的輸出
- 廣泛應用于分類和回歸任務,如文本分類、圖像識別等
語言學處理實例:
- 詞性標注:以詞性標注的語料庫為訓練集,學習詞性分類模型,自動標注新文本
- 語法糾錯:以正確和錯誤的句子對為訓練數據,學習語法糾錯模型,自動檢查和修正語法錯誤
- 語音識別:以語音-文本對為訓練數據,學習語音轉錄模型,實現語音到文本的自動轉換
- 閱讀理解:以文本-問題-答案三元組為訓練數據,學習閱讀理解模型,自動回答文本內容的問題
2.無監督學習(教師なし學習)
- 訓練數據沒有標簽,只有輸入本身
- 目標是發現數據內在的結構和模式,如聚類、關聯、降維
- 常用于數據壓縮、異常檢測、推薦系統等
語言學處理實例:
- 詞聚類:無監督地將語料庫中的詞匯按語義聚成不同的類,發現詞匯的語義關系
- 話題發現:從大量文本語料中無監督地提取隱含的主題,理解語料的話題結構
- 字詞表示學習:從海量語料中自主學習詞嵌入表示,刻畫詞匯的語義特征,用于各種下游NLP任務
- 語言結構發現:從未標注的語料中自主學習短語結構、句法結構等,發現語言的結構規律
3.強化學習(強化學習)
- 通過智能體(Agent)與環境的交互來學習最優策略
- 沒有直接的監督標簽,而是根據行為獲得的獎勵或懲罰來優化
- 適用于序貫決策問題,如游戲、機器人控制、自動化運營等
語言學處理實例:
- 對話生成:通過強化學習訓練對話系統,根據人類反饋優化對話策略,生成更自然、貼切的回復
- 語言游戲:設計益智的語言交互游戲,通過強化學習訓練游戲AI,提供智能的游戲陪練,供學習者練習
- 寫作評分:將自動作文評分系統建模為強化學習過程,通過學生反饋和專家打分等獎勵信號,持續優化評分策略
- 教育個性化:將個性化教學決策建模為強化學習問題,通過學生學習過程數據及反饋,自適應優化個性化教學策略
總的來說,有監督學習需要人工標注數據,學習明確的目標;而無監督學習讓算法自主探索數據的內在規律。而強化學習通過主動探索和試錯來優化系統行為,以獲得最大化的累積獎勵。
三.每種機器學習所對應的具體方法
(了解!之后推文會詳細介紹)
分類 | 常用方法 |
---|---|
有監督學習 |
|
無監督學習 |
|
強化學習 |
|