【自學30天掌握AI開發】第1天 - 人工智能與大語言模型基礎

自學30天掌握AI開發 - 第1天

📆 日期和主題

日期:第1天
主題:人工智能與大語言模型基礎

🎯 學習目標

  1. 了解人工智能的發展歷史和基本概念
  2. 掌握大語言模型的基本原理和工作機制
  3. 區分不同類型的AI模型及其特點
  4. 理解AI在當前社會中的應用場景和影響
  5. 能夠使用至少一種大語言模型進行基礎交互

📚 核心知識點講解

什么是人工智能?

人工智能(AI)是指由機器展示的智能,特別是計算機系統能夠執行傳統上需要人類智能的任務,如視覺感知、語音識別、決策制定和語言翻譯等。

AI可以分為三種類型:

  • 弱人工智能(ANI):專注于執行特定任務的AI,如語音助手、圖像識別系統。這是我們現在擁有的AI類型。
  • 強人工智能(AGI):具有與人類相當的通用智能,能夠執行任何人類可以做的智力任務。目前仍在研究中。
  • 超級人工智能(ASI):智能超過人類的AI,理論上可能出現但目前遠未實現。

人工智能發展簡史

AI的發展可以劃分為幾個關鍵階段:

  1. 早期發展(1950s-1990s)

    • 1950年,艾倫·圖靈提出"圖靈測試",用于判斷機器是否具有人類水平的智能
    • 1956年,達特茅斯會議正式確立"人工智能"學科
    • 1960-70年代,早期專家系統和符號主義AI發展
    • 1980年代,AI經歷第一次"寒冬",投資和興趣下降
  2. 機器學習興起(1990s-2010)

    • 從符號邏輯轉向基于數據的學習方法
    • 統計方法和早期神經網絡開始應用
    • 支持向量機(SVM)、決策樹等算法取得成功
  3. 深度學習革命(2010年代)

    • 2012年,AlexNet在圖像識別競賽中取得突破性勝利
    • 計算能力提升和大數據可用性促進了深度學習發展
    • 卷積神經網絡(CNN)在圖像處理領域取得巨大成功
  4. 大語言模型時代(2018至今)

    • 2018年,BERT模型開創上下文化語言理解新范式
    • 2020年,GPT-3展示出驚人的自然語言能力
    • 2022-2023年,ChatGPT引發AI應用熱潮
    • 當前,GPT-4、Claude、Gemini等模型持續推動AI能力邊界

機器學習基礎

機器學習是AI的一個核心分支,它使計算機能夠從數據中學習,而無需顯式編程。主要學習方式包括:

  1. 監督學習

    • 使用標記數據(輸入和正確輸出對)訓練模型
    • 模型學習輸入和輸出之間的映射關系
    • 常見應用:圖像分類、垃圾郵件檢測、預測分析
  2. 無監督學習

    • 使用無標記數據,讓模型自行發現數據中的模式和結構
    • 常見技術:聚類、降維、異常檢測
    • 應用:客戶細分、模式識別
  3. 強化學習

    • 通過試錯和獎懲機制學習最優策略
    • 智能體(Agent)通過與環境交互獲取反饋
    • 應用:游戲AI、自動駕駛、機器人控制
  4. 神經網絡基礎

    • 受人腦結構啟發的計算模型
    • 由多層神經元組成,每層神經元將信息傳遞給下一層
    • 通過反向傳播算法調整權重,使網絡輸出更接近目標

大語言模型工作原理

大語言模型(LLM)是基于深度學習的自然語言處理系統,能夠理解、生成和操作人類語言。

基本工作原理
  1. 預訓練過程

    • 模型在海量文本數據上進行訓練(通常包含數千億詞匯)
    • 學習預測句子中下一個詞的概率分布
    • 在訓練過程中獲取語言的語法、語義和事實知識
  2. Transformer架構

    • 現代LLM基于Transformer架構(2017年由Google提出)
    • 核心是"自注意力機制",允許模型關注輸入文本的不同部分
    • 并行處理能力強,訓練效率高
  3. 標記化(Tokenization)

    • 將文本分解為模型可處理的單元(標記/tokens)
    • 標記可以是單詞、詞的一部分或標點符號
    • 每個標記都映射到一個唯一的ID,用于模型處理
  4. 推理過程

    • 模型接收輸入文本(提示詞/prompt)
    • 基于已學習的模式預測下一個最可能的標記
    • 循環這個過程生成完整響應
參數量與能力

LLM的能力與其參數量(模型中可調節的變量數量)密切相關:

  • GPT-3:1750億參數
  • GPT-4:估計超過1萬億參數
  • Claude 3:未公開,估計數千億級別
  • Gemini:未公開,估計在同等量級

參數量越大,模型通常能捕捉更復雜的模式和關系,但也需要更多計算資源。

主流大語言模型介紹

GPT系列 (OpenAI)
  • GPT-3.5:廣泛應用于ChatGPT,平衡了性能和成本
  • GPT-4:多模態能力,可處理文本和圖像輸入,推理能力更強
  • 特點:上下文理解能力強,創意寫作出色,編程和推理能力優秀
Claude系列 (Anthropic)
  • Claude 3 Opus/Sonnet/Haiku:三個不同能力和速度級別的模型
  • 特點:安全合規性強,長文本處理能力突出,輸出更加詳細和有條理
Gemini (Google)
  • Gemini Pro/Ultra:Google最新的多模態模型
  • 特點:強大的推理能力,與Google生態系統集成,數學和科學能力突出
開源模型
  • LLaMA (Meta):開源大語言模型,有多種參數規模版本
  • Mistral:法國初創公司開發的高效開源模型
  • 特點:可本地部署,社區支持豐富,定制化程度高

大語言模型的能力與局限

擅長的任務
  • 文本生成:創意寫作、內容創作、摘要生成
  • 語言翻譯和改寫
  • 問答與信息檢索
  • 基礎代碼編寫與理解
  • 概念解釋和教育輔導
不擅長的任務
  • 精確計算和數學推理
  • 最新信息獲取(知識截止日期限制)
  • 高度專業化的領域知識
  • 圖像或音頻的詳細分析(非多模態模型)
  • 因果推理和常識判斷
常見問題和局限
  1. 幻覺(Hallucination)

    • 模型生成看似合理但實際不正確的內容
    • 原因:訓練數據中的錯誤信息、統計模式過度泛化、上下文窗口限制
  2. 上下文窗口限制

    • 模型一次只能處理有限長度的文本
    • GPT-3.5:約4K標記(約12,000字)
    • Claude 3 Opus:約200K標記(約60萬字)
    • 超過窗口大小的信息會被忽略或遺忘
  3. 偏見與公平性問題

    • 模型可能反映訓練數據中的社會偏見
    • 可能對某些群體有刻板印象或不公平表現
  4. 知識時效性

    • 模型知識在某個時間點"凍結"
    • GPT-4的訓練數據截止到2023年4月
    • 無法獲取后續的新信息和事件

📖 詳細學習內容

AI的應用領域

當前AI正在改變多個領域的工作方式:

  1. 內容創作

    • 文本生成:文章、報告、創意寫作
    • 圖像創作:生成藝術、產品設計、概念圖
    • 音頻/視頻制作:音樂創作、視頻編輯輔助
  2. 軟件開發

    • 代碼生成與調試
    • 自動化測試與文檔
    • 低代碼/無代碼開發平臺
  3. 商業與分析

    • 客戶服務機器人
    • 數據分析與洞察
    • 市場預測與決策輔助
  4. 教育與研究

    • 個性化學習助手
    • 研究文獻分析
    • 實驗設計輔助
  5. 醫療健康

    • 診斷輔助系統
    • 藥物發現與開發
    • 個性化治療方案

大語言模型與傳統AI的區別

傳統AI與現代LLM有幾個關鍵區別:

特性傳統AI大語言模型
設計方法針對特定任務手工設計通用模型,適應多種任務
數據需求任務特定的標記數據海量通用文本數據
適應能力領域轉換困難零樣本/少樣本學習能力強
交互方式結構化輸入和輸出自然語言交互
理解深度淺層模式識別深層語義理解
創造能力有限或無強大的創造性能力

提示工程基礎

與大語言模型交互的關鍵是構建有效的提示(prompt)。基本原則包括:

  1. 明確性:清晰表達你的需求和期望
  2. 上下文提供:給模型足夠的背景信息
  3. 結構化:使用格式化的指令和結構
  4. 分步引導:復雜任務分解為簡單步驟
  5. 示例演示:提供輸入-輸出示例說明需求

示例提示結構:

角色:[給AI定義一個角色]
任務:[明確任務描述]
格式:[指定輸出格式]
步驟:[分解任務步驟]
限制:[設定任何約束或邊界]
示例:[提供一個例子]

💻 代碼示例/交互練習

練習1:基本AI交互

選擇一個可訪問的大語言模型(如ChatGPT、Claude、Gemini等),并嘗試以下交互:

  1. 簡單問答
    提示:請解釋什么是神經網絡,用簡單的語言讓非技術人員也能理解。

  2. 角色扮演
    提示:假設你是一位AI研究歷史學家。請以時間線的形式,列出AI發展的5個關鍵里程碑事件及其影響。

  3. 創意生成
    提示:請為一個名為"人工智能與人類協作"的博客生成5個有吸引力的標題。

練習2:提示詞工程體驗

嘗試同一個問題的不同提問方式,觀察結果差異:

基礎提示

什么是大語言模型?

改進提示

請詳細解釋大語言模型的工作原理,包括:
1. 基本定義
2. 訓練過程
3. 核心架構組件
4. 推理機制
5. 與傳統NLP模型的區別請確保解釋通俗易懂,適合AI初學者閱讀,可以使用比喻來幫助理解。

比較兩種提示的回答質量和詳細程度,思考差異原因。

練習3:多模型對比測試

如果你能訪問多個AI模型,嘗試向不同模型提出相同問題,比較它們的回答:

測試問題:

  1. 請解釋量子計算的基本原理
  2. 編寫一個簡單的Python函數來檢查一個數是否為質數
  3. 用四段話寫一個關于未來城市的小故事

記錄每個模型的回答并比較:

  • 回答準確性
  • 表達清晰度
  • 創意水平
  • 是否出現錯誤或"幻覺"

? 自測問題

  1. 基礎概念:人工智能、機器學習和深度學習之間有什么關系?它們分別指什么?

  2. 歷史發展:簡述大語言模型發展歷程中的三個重要里程碑及其意義。

  3. 技術原理:Transformer架構中的"自注意力機制"有什么作用?為什么它對大語言模型如此重要?

  4. 能力邊界:大語言模型在哪些任務上表現出色,又在哪些方面存在明顯不足?

  5. 應用場景:舉出三個大語言模型在實際生活或工作中的具體應用場景,并簡述其價值。

  6. 模型比較:GPT、Claude和Gemini系列模型各有什么特點和優勢?

  7. 倫理考量:使用AI技術可能帶來哪些倫理問題?我們應該如何應對?

自測問題答案

  1. 基礎概念

    • 人工智能(AI)是最廣泛的概念,指機器模擬人類智能的能力
    • 機器學習(ML)是AI的一個子領域,關注讓計算機從數據中學習而無需顯式編程
    • 深度學習(DL)是機器學習的一個子集,使用多層神經網絡處理信息
  2. 歷史發展

    • BERT(2018):引入雙向上下文理解,大幅提升語言模型對文本理解能力
    • GPT-3(2020):1750億參數規模,展示出令人印象深刻的自然語言生成能力
    • ChatGPT(2022):人類反饋強化學習(RLHF)的突破性應用,使AI交互變得對話化和友好
  3. 技術原理

    • 自注意力機制允許模型在處理序列時關注輸入的不同部分
    • 它計算序列中每個元素與所有其他元素的關系
    • 對LLM至關重要是因為它使模型能夠捕捉長距離依賴關系,理解上下文,并有效處理變長序列
  4. 能力邊界

    • 優勢:文本生成、信息提取、語言翻譯、創意寫作、基礎編程
    • 局限:精確計算、最新信息獲取、專業領域深度知識、邏輯推理一致性、常識理解
  5. 應用場景

    • 內容創作:幫助作家克服創作障礙,生成初稿和創意構思
    • 編程輔助:協助開發者編寫代碼,解釋復雜概念,調試和優化
    • 客戶服務:提供24/7自動化支持,回答常見問題,處理基本請求
  6. 模型比較

    • GPT系列:通用能力強,創意表現出色,編程支持好
    • Claude系列:長文本處理能力突出,回答更系統化,安全性強調
    • Gemini系列:多模態理解能力強,科學和數學推理優秀,與Google服務整合
  7. 倫理考量

    • 隱私問題:用戶數據如何被收集、使用和保護
    • 偏見與公平:模型可能放大社會偏見和不平等
    • 真實性挑戰:區分AI與人類創作內容日益困難
    • 就業轉型:自動化對就業市場的潛在影響
    • 解決方案:透明的AI系統、多樣化的訓練數據、明確的使用政策以及持續的倫理監督

📚 拓展資源

閱讀材料

  • 人工智能簡史 - Michael Wooldridge
  • Attention Is All You Need - Transformer架構原始論文
  • GPT-3論文:Language Models are Few-Shot Learners - OpenAI研究團隊

視頻資源

  • 3Blue1Brown: 神經網絡是什么? - 神經網絡可視化解釋
  • Andrej Karpathy: GPT工作原理 - 從零構建GPT
  • 大語言模型工作原理解析 - 通俗易懂的中文解釋

工具與網站

  • Hugging Face - AI模型庫與社區
  • AI Playground - 對比多個頂級AI模型
  • ChatGPT - OpenAI的大語言模型交互界面
  • Eleuther AI - 開源語言模型研究
  • LLM可視化工具 - 交互式理解Transformer架構

課程與教程

  • 吳恩達《AI For Everyone》 - 面向非技術人員的AI入門
  • 李宏毅《深度學習基礎》 - 中文深度學習課程
  • 《Practical Deep Learning》 - 實用深度學習入門

🚀 實踐項目

項目:AI模型能力評估報告

目標:創建一個詳細的AI模型能力評估報告,比較不同模型在各種任務上的表現。

步驟

  1. 準備評估問題集

    • 基礎知識問答(歷史、科學、文學等)
    • 邏輯推理題(數學問題、邏輯謎題)
    • 創意生成任務(故事、詩歌、廣告文案)
    • 代碼編寫任務(簡單函數、算法實現)
    • 分析與總結任務(文章摘要、觀點提取)
  2. 選擇評估模型

    • 選擇2-3個可訪問的AI模型(如ChatGPT、Claude、Gemini等)
    • 記錄每個模型的版本信息和訪問方式
  3. 執行測試

    • 向每個模型提出相同的問題
    • 保持提示詞格式一致
    • 記錄回復內容和響應時間
  4. 分析結果

    • 為每個回答評分(1-5分制)
    • 比較不同模型在各類任務上的優劣
    • 記錄任何有趣的差異或獨特表現
  5. 撰寫報告

    • 測試方法說明
    • 結果數據表格
    • 模型優勢分析
    • 應用場景推薦
    • 個人使用建議

成果展示

  • 一份完整的評估報告文檔(Word或PDF)
  • 評分數據的可視化圖表
  • 優秀回答示例集錦

📅 學習建議

時間規劃

對于第一天的學習,建議按照以下時間分配:

  • 核心知識學習:60-90分鐘

    • 分段學習,每30分鐘休息5分鐘
    • 記筆記,用自己的話總結要點
  • 交互練習:45-60分鐘

    • 實際使用AI模型,體驗各種功能
    • 嘗試不同提示詞,觀察效果差異
  • 自測與復習:30分鐘

    • 不查閱筆記完成自測問題
    • 回顧錯誤的問題,查漏補缺
  • 拓展學習:30-60分鐘(可選)

    • 選擇1-2個感興趣的拓展資源深入學習
    • 將新知識與核心內容聯系起來

學習方法建議

  1. 主動學習:不要只是閱讀,嘗試用自己的話解釋概念,尋找實際例子

  2. 實踐為主:多與AI模型交互,親身體驗其能力和局限

  3. 問題驅動:帶著問題學習,思考"為什么"和"如何應用"

  4. 聯系實際:思考AI如何應用到你的工作或生活中

  5. 保持好奇:AI領域發展迅速,培養持續學習的習慣

📝 作業/思考題

  1. AI發展時間線:創建一個可視化時間線,標注AI發展歷史中的10個關鍵事件,并簡述每個事件的意義。

  2. 模型對比報告:完成至少兩個不同大語言模型的測試,寫一份500字的對比報告,分析它們的優缺點和適用場景。

  3. 應用場景分析:選擇你熟悉的一個行業或領域,分析大語言模型可能帶來的3個積極影響和2個潛在挑戰,并提出應對挑戰的建議。

  4. 倫理思考:寫一篇簡短文章(約600字),討論AI發展可能帶來的一個倫理問題,分析多方觀點并提出你的看法。

  5. 學習計劃制定:基于今天的學習內容,確定你對AI領域最感興趣的3個方面,并制定接下來一周的具體學習計劃。


明日預覽:明天我們將學習"上下文理解與多模態AI技術",探索大語言模型如何理解和處理上下文信息,以及AI如何跨越文本、圖像、音頻等多種模態工作。我們還將解析作業1-5的參考答案,幫助你檢驗學習成果。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/905286.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/905286.shtml
英文地址,請注明出處:http://en.pswp.cn/news/905286.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

WebRTC 源碼原生端Demo入門-1

1、概述 我的代碼是比較新的,基于webrtc源碼倉庫的main分支的,在windows下把源碼倉庫下載好了后,用visual stdio 2022打開進行編譯調試src/examples/peerconnection_client測試項目,主要是跑通這個demo來入手和調試,純看代碼很難…

【LeetCode】刪除排序數組中的重復項 II

題目 鏈接 思路 雙指針 我好聰明啊,自己想出了這個雙指針的辦法,哈哈哈哈哈哈哈,太高興了 代碼 class Solution(object):def removeDuplicates(self, nums):""":type nums: List[int]:rtype: int"""nlen…

通義千問席卷日本!開源界“卷王”阿里通義千問成為日本AI發展新基石

據日本經濟新聞(NIKKEI)報道,通義千問已成為日本AI開發的新基礎,其影響力正逐步擴大,深刻改變著日本AI產業的格局。 同時,日本經濟新聞將通義千問Qwen2.5-Max列為全球AI模型綜合評測第六名,不僅…

第J7周:對于ResNeXt-50算法的思考

目錄 思考 一、代碼功能分析 1. 構建 shortcut 分支(殘差連接的旁路) 2. 主路徑的第一層卷積(11) 4. 主路徑的第三層卷積(11) 5. 殘差連接 激活函數 二、問題分析總結:殘差結構中通道數不一致的…

如何解決Jmeter中的亂碼問題?

在 JMeter 中遇到亂碼問題通常是由于字符編碼不一致導致的,常見于 HTTP 請求響應、參數化文件讀取、報告生成等場景。以下是系統化的解決方案: 1. HTTP 請求響應亂碼 原因: 服務器返回的字符編碼(如UTF-8、GBK)與 J…

# YOLOv2:目標檢測的升級之作

YOLOv2:目標檢測的升級之作 在目標檢測領域,YOLO(You Only Look Once)系列算法以其高效的速度和創新的檢測方式受到了廣泛關注。今天,我們就來深入探討一下 YOLOv2,看看它是如何在繼承 YOLOv1 的基礎上進行…

小白入!WiFi 技術大解析

WiFi,全稱Wireless Fidelity,是一種無線局域網技術,允許電子設備通過無線電波連接到互聯網。以下是對WiFi的一些介紹: 一、基本概述 定義:WiFi是一種基于IEEE 802.11標準系列的無線局域網技術,使設備能夠…

【prometheus+Grafana篇】基于Prometheus+Grafana實現windows操作系統的監控與可視化

💫《博主主頁》: 🔎 CSDN主頁 🔎 IF Club社區主頁 🔥《擅長領域》:擅長阿里云AnalyticDB for MySQL(分布式數據倉庫)、Oracle、MySQL、Linux、prometheus監控;并對SQLserver、NoSQL(MongoDB)有了…

推薦一個感覺非常好的文章,是知識圖譜的

為了省瀏覽的事兒,以后打算寫文章都短一些,這樣不用被強制登錄、關注了 正文 鏈接是 https://blog.csdn.net/Appleyk/article/details/80422055 放個截圖 推薦理由 兩個,第一內容確實硬核。第二算是緣分吧,我之前公司好像&am…

《企業級前端部署方案:Jenkins+MinIO+SSH+Gitee+Jenkinsfile自動化實踐》

文章目錄 前言前端項目CICD時序圖一、環境準備1、服務器相關2、Jenkins憑據3、注意事項 二、設計思想1. 模塊化設計2.多環境支持3. 制品管理4. 安全部署機制5. 回滾機制 三、CI階段1、構建節點選擇2、代碼拉取3、代碼編譯4、打包并上傳至minio 四、CD階段五、回滾階段六、構建通…

Go語言超時控制方案全解析:基于goroutine的優雅實現

一、引言 在構建高可靠的后端服務時,超時控制就像是守護系統穩定性的"安全閥",它確保當某些操作無法在預期時間內完成時,系統能夠及時止損并釋放資源。想象一下,如果沒有超時控制,一個簡單的數據庫查詢卡住…

WTK6900C-48L:離線語音芯片重構玩具DNA,從“按鍵操控”到“聲控陪伴”的交互躍遷

一:開發背景 隨著消費升級和AI技術進步,傳統玩具的機械式互動已難以滿足市場需求。語音控制芯片的引入使玩具實現了從被動玩耍到智能交互的跨越式發展。通過集成高性價比的語音識別芯片,現代智能玩具不僅能精準響應兒童指令,還能實…

WebSocket的原理及QT示例

一.WebSocket 介紹 1.概述 WebSocket 是一種在單個 TCP 連接上進行全雙工通訊的協議,它在 2011 年被 IETF 定為標準 RFC 6455,并由 RFC7936 補充規范。與傳統的 HTTP 協議不同,WebSocket 允許服務器和客戶端之間進行實時、雙向的數據傳輸&a…

設置GO程序在離線情況下讀取本地緩存的模塊

在 Go 中,GOPROXY 環境變量用于指定模塊代理服務器的地址。如果你想讓 GOPROXY 讀取本地的模塊,可以通過以下幾種方式實現: 1. 使用本地代理服務器 你可以搭建一個本地的 Go 模塊代理服務器,將需要的模塊代碼推送到代理服務器中…

live555開發筆記(三):live555創建RTSP服務器源碼剖析,創建h264文件rtsp服務器源碼深度剖析

若該文為原創文章,轉載請注明原文出處 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/147879917 長沙紅胖子Qt(長沙創微智科)博文大全:開發技術集合(包含Qt實用技術、樹莓派、三維、OpenCV…

STM32-模電

目錄 一、MOS管 二、二極管 三、IGBT 四、運算放大器 五、推挽、開漏、上拉電阻 一、MOS管 1. MOS簡介 這里以nmos管為例,注意箭頭方向。G門極/柵極,D漏極,S源極。 當給G通高電平時,燈泡點亮,給G通低電平時&a…

基于定制開發開源AI智能名片S2B2C商城小程序的公私域流量融合運營策略研究

摘要:本文以定制開發開源AI智能名片S2B2C商城小程序為技術載體,系統探討公域流量向私域流量沉淀的數字化路徑。研究通過分析平臺流量(公域流量)與私域流量的共生關系,提出"公域引流-私域沉淀-數據反哺"的閉環…

mysql中索引的使用

前言 最近一直在學習mysql以及忙學校課程的事情。已經好久沒寫過博客了,今天跟大家分享一下在mysql中關于索引的知識,希望可以幫助到大家。 索引的定義 mysql中的索引是一種數據結構,它可以幫助數據庫高效地查詢,更新數據表中的…

深度拆解!MES如何重構生產計劃與排產調度全流程?

?引言 在制造業數字化轉型浪潮中,生產計劃與排產調度的精準性直接決定企業競爭力。深藍易網MES系統通過智能化調度與全流程管控,幫助企業破解排產難題,實現資源高效協同與生產透明化管理,為制造企業打造柔性化、敏捷化的生產體系…

【深度學習】計算機視覺(18)——從應用到設計

文章目錄 1 不同的注意力機制1.1 自注意力1.2 多頭注意力1.3 交叉注意力1.3.1 基礎1.3.2 進階 1 不同的注意力機制 在學習的過程中,發現有很多計算注意力的方法,例如行/列注意力、交叉注意力等,如果對注意力機制本身不是特別實現&#xff0c…