LLMs基礎學習(八)強化學習專題(1)

LLMs基礎學習(八)強化學習專題(1)

文章目錄

  • LLMs基礎學習(八)強化學習專題(1)
    • 學習資料資源
    • 強化學習是什么
      • 強化學習一句話精準定義
    • 強化學習與其他學習類型的對比
      • 強化學習 vs 監督學習
      • 強化學習 vs 非監督學習
      • 三者總結對比
      • 損失函數 對比
    • 強化學習發展歷史梳理
      • 傳統強化學習階段(1950s - 2000s)
        • 1. 動態規劃(Dynamic Programming, DP)
        • 2. 蒙特卡羅方法(Monte Carlo, MC)
        • 3. 時序差分學習(Temporal Difference, TD)
      • 策略優化與深度強化學習階段(2000s - 2010s)
        • 1. 策略梯度(Policy Gradient, PG)
        • 2. A - C 方法(Actor - Critic)
        • 3. 深度 Q 網絡(Deep Q - Network, DQN, 2013)
      • 深度強化學習擴展與優化(2010s - 至今)
        • 1. 改進型 DQN 算法
        • 2. 策略優化進階
        • 3. 模仿學習與逆強化學習
      • 算法改進核心邏輯(技術演進脈絡)
      • 小結
    • 強化學習中不同方法的對比總結表
      • 根據智能體動作選取方式分類
        • 基于價值的方法(Value-Based)
        • 基于策略的方法(Policy-Based)
        • 結合價值與策略的方法(Actor-Critic)
      • 強化學習中不同方法的對比總結表
    • 馬爾可夫決策過程(MDP)
      • MDP 整體定位
      • 核心概念
        • 1. 馬爾可夫(Markov)
        • 2. 馬爾可夫最重要性質
        • 3. 馬爾可夫過程(Markov Process,簡稱 MP)
        • 4. 馬爾可夫決策過程(Markov Decision Process,MDP)
      • MDP小結

視頻鏈接:https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c6918a09b65d319a99a

學習資料資源

這部分是為想學習強化學習的人準備的 “知識儲備庫”,提供不同形式的學習素材:

  • 書籍資料
    • 權威著作:2024 年圖靈獎得主 Richard S. Sutton 和 Andrew G. Barto 的相關作品(如《BartoSutton.pdf》 ),是強化學習領域經典理論奠基讀物,能幫讀者搭建扎實理論基礎。
    • 實驗室資料:西湖大學智能無人系統實驗室(WINDY Lab)趙世鈺分享的資料(倉庫地址 https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning ),可從數學視角深入剖析強化學習底層邏輯,適合想鉆研理論深度的學習者。
  • 視頻資料:提到 “強化學習的數學原理” 相關視頻(未給出具體鏈接,但可推測是從數學推導、公式邏輯角度講解強化學習,幫學習者理解算法背后數學支撐 )。
  • 博客資料:給出博客鏈接 https://www.cnblogs.com/pinard/p/9385570.html ,這類技術博客通常會用更通俗、案例化的方式講解強化學習概念、算法實踐,適合輔助理解理論知識。

強化學習是什么

  • 核心問題:研究智能體(agent)在復雜、不確定的環境(environment) 里,如何通過一系列交互,最大化自身能獲得的獎勵 。簡單說,就是教智能體在多變環境中 “做對的事”,拿到最多 “好處”。
  • 組成要素:由智能體(agent)環境(environment) 兩部分構成,二者持續交互推動學習過程。
  • 交互流程
    1. 智能體行動:智能體先從環境中獲取當前狀態(state) ,基于這個狀態,輸出一個動作(action) ,也叫 “決策(decision)” 。比如機器人(智能體)在房間(環境)里感知到自己在角落(狀態),就會輸出 “移動到中間” 的動作。
    2. 環境反饋:智能體的動作在環境中執行后,環境會給出兩部分反饋:一是下一個狀態(next state) (比如機器人移動后,新的位置狀態);二是當前動作帶來的獎勵(reward) (若移動到中間能充電,獎勵就是 “獲得能量” )。
    3. 目標導向:智能體持續重復 “感知狀態→輸出動作→接收反饋” 循環,最終目的就是盡可能多地從環境中獲取獎勵 ,讓自己的 “收益” 最大化。

強化學習一句話精準定義

這部分用簡潔表述,把強化學習本質提煉出來:

  • 英文原版:“Reinforcement learning is learning what to do – how to map situations to actions – so as to maximize a numerical reward signal.” 直接翻譯是 “強化學習是學習做什么(即如何把當前情境映射成動作),從而最大化數值化的獎勵信號” 。

在這里插入圖片描述

強化學習與其他學習類型的對比

強化學習 vs 監督學習

對比維度監督學習特點強化學習特點
數據與輸出值預先準備好的訓練數據輸出值(帶標簽數據,比如分類任務里的類別標簽 )無預先輸出值,只有延遲給出的獎勵值(不是事先確定,是交互后環境反饋的 )
學習模式基于靜態帶標簽數據學習,數據間獨立無時間依賴(比如圖像分類,每張圖標簽獨立 )在實踐交互中學習,每一步與時間順序、前后狀態緊密關聯(如走路學習,一步影響下一步 )
反饋機制即時標簽反饋(模型預測后,立刻對比標簽知道對錯 )延遲獎勵反饋(動作執行后,需等環境后續反饋獎勵,比如走路摔倒后才收到負面獎勵 )
舉 例圖像分類:輸入貓的圖片,標簽直接告訴模型 “這是貓”,模型學預測規則學走路:摔倒(動作)后,過一會大腦給負面獎勵;走對步(動作),后續給正面獎勵

強化學習 vs 非監督學習

對比維度非監督學習特點強化學習特點
數據與反饋無輸出值、無獎勵值,只有數據特征(比如聚類任務里的樣本特征 )延遲獎勵值,基于交互反饋
數據依賴關系數據間獨立無時間 / 前后依賴(比如對一批用戶行為數據聚類,每條數據獨立 )數據(交互過程)與時間順序、前后狀態強關聯(如游戲里每一步操作影響下一步 )
核心目標發現數據結構規律(比如聚類成不同群體、降維提煉關鍵特征 )最大化累積獎勵,通過與環境交互優化決策

三者總結對比

維度監督學習無監督學習強化學習
數據帶標簽的靜態數據無標簽的靜態數據動態交互生成的數據
反饋即時標簽反饋無顯式反饋延遲獎勵信號
目標預測準確率最大化數據結構發現累積獎勵最大化
應用分類、回歸(如圖像識別、預測)聚類、降維(如用戶分群)決策優化、控制(如游戲、機器人)
復雜度中(依賴標注質量,標注成本高)低(無需標注)高(需處理長期依賴、動態交互)

損失函數 對比

對比維度深度學習損失函數特點強化學習損失函數特點
核心目標最小化預測值與真實值的差距(比如分類任務里的分類錯誤 )最大化總獎勵的期望(讓智能體獲得更多累積獎勵 )
數據性質靜態、獨立同分布(比如訓練集里的樣本相互獨立 )動態生成、時序相關(交互過程產生,一步影響一步 )
動態性固定(如交叉熵損失,形式相對固定 )策略 / 環境變化(如貝爾曼誤差會動態更新 )
優化對象模型輸出(如分類概率、回歸預測值 )策略、價值函數或其組合(優化智能體的決策邏輯 )
依賴環境無需交互,依賴靜態數據訓練(拿標注數據直接訓 )需與環境交互獲取獎勵信號(邊試邊學,依賴環境反饋 )

強化學習發展歷史梳理

強化學習(Reinforcement Learning, RL)作為機器學習重要分支,核心目標是智能體通過與環境交互,學會最大化累積獎勵,其發展歷經多階段,以下按時間線與關鍵節點拆解:

傳統強化學習階段(1950s - 2000s)

聚焦基礎理論與經典方法,為后續發展奠基,包含三類核心技術:

1. 動態規劃(Dynamic Programming, DP)
  • 原理:用遞歸分解問題,計算每個狀態最優價值函數(如價值迭代),或直接優化策略(如策略迭代)。
  • 特點:首次將數學規劃引入決策,需完整環境模型(如狀態轉移概率);但計算復雜度高,僅適用于小規模問題。
2. 蒙特卡羅方法(Monte Carlo, MC)
  • 原理:通過隨機采樣軌跡(如 “玩完一局游戲”)估計價值函數,無需環境模型
  • 特點:解決 DP 依賴模型的問題,但需完整軌跡,存在方差大、收斂慢問題;如蒙特卡羅策略迭代,靠經驗平均更新策略,數據利用率低。
3. 時序差分學習(Temporal Difference, TD)
  • 代表算法:Q - learning(1989)、SARSA(State - Action - Reward - State - Action,1994)。
  • 原理:結合 DP(利用模型)與 MC(采樣軌跡),通過單步更新(如 Q - learning 的 “當前獎勵 + 未來估計”)在線學習。
  • 特點:Q - learning 是 “免模型” 算法,支持在線學習;但受限于離散狀態動作空間,難處理高維問題。

策略優化與深度強化學習階段(2000s - 2010s)

引入策略梯度、深度學習,突破傳統方法局限,邁向更復雜場景:

1. 策略梯度(Policy Gradient, PG)
  • 原理:直接優化策略(如動作概率分布),靠梯度上升最大化期望獎勵。
  • 特點:適配連續動作空間(如機器人控制);但梯度估計方差大、訓練不穩定。REINFORCE 算法(1992 年 Williams 提出)是早期代表,通過整條軌跡更新策略,樣本效率低
2. A - C 方法(Actor - Critic)
  • 原理:結合 “策略梯度(Actor,負責生成動作)” 與 “值函數(Critic,評估動作價值)”。
  • 特點:Critic 可減少梯度方差,提升訓練效率;如 A3C(Asynchronous Advantage Actor - Critic)支持并行訓練,優化訓練流程。
3. 深度 Q 網絡(Deep Q - Network, DQN, 2013)
  • 原理:用深度神經網絡近似 Q 值函數,結合經驗回放(存儲歷史數據)、固定目標網絡(穩定訓練)。
  • 特點:首次在 Atari 游戲中超越人類水平,解決高維狀態(如圖像輸入) 表示問題;但動作空間仍需離散,限制應用場景。

深度強化學習擴展與優化(2010s - 至今)

在前期基礎上迭代創新,覆蓋更多復雜任務,核心方向包括:

1. 改進型 DQN 算法
  • 代表算法:Double DQN(解決 Q 值高估)、Dueling DQN(分離狀態價值與動作優勢)。
  • 特點:通過結構優化,提升算法穩定性與泛化能力,適配更多場景。
2. 策略優化進階
  • 代表算法:TRPO(Trust Region Policy Optimization,信任域策略優化)、PPO(Proximal Policy Optimization,近端策略優化)、GRPO(Group Relative Policy Optimization)。
  • 特點:約束策略更新幅度,避免訓練崩潰,適配復雜任務(如機器人行走),平衡訓練效率與穩定性。
3. 模仿學習與逆強化學習
  • 原理:模仿專家行為(如自動駕駛),或從數據反推獎勵函數。
  • 特點:減少智能體 “探索成本”,提升安全性與可解釋性,讓強化學習更貼近實際應用(如工業控制、自動駕駛)。

算法改進核心邏輯(技術演進脈絡)

從傳統到現代,強化學習算法優化圍繞四大方向突破:

  1. 模型依賴→免模型:DP 需完整環境模型,Q - learning、DQN 等免模型算法更通用,適配未知環境。
  2. 離散空間→連續空間:Q - learning 局限于離散動作,策略梯度支持連續控制,拓展機器人、自動駕駛等場景。
  3. 低效采樣→高效利用:蒙特卡羅需完整軌跡,TD、Actor - Critic 實現單步更新;經驗回放技術進一步提升數據利用率。
  4. 單一方法→混合融合:Actor - Critic 結合值函數與策略梯度;深度強化學習融合深度學習特征提取能力,處理高維復雜輸入。

小結

強化學習發展歷經 “傳統方法奠基→深度強化學習突破→擴展優化落地” 路徑,核心是平衡環境適配性、訓練效率與任務復雜度。從依賴環境模型到免模型、從離散到連續空間、從低效采樣到高效利用,每一步突破都推動其在機器人、游戲、自動駕駛等領域落地,未來仍會圍繞 “更高效、更穩定、更易解釋” 持續演進 。

強化學習中不同方法的對比總結表

根據智能體動作選取方式分類

依據學習目標不同

基于價值的方法(Value-Based)
  • 核心思想:優化價值函數(狀態值函數 (V(s))、動作值函數 (Q(s,a)) )間接找最優策略,選動作時追求未來累積獎勵最大。
  • 代表算法:
    • Q - Learning:用貝爾曼方程迭代更新 Q 表,適配離散狀態 / 動作空間 。
    • DQN:神經網絡擬合 Q 值函數,靠經驗回放、目標網絡解決訓練不穩定,適用于高維狀態空間。
  • 特點與局限:
    • 優點是采樣效率高、收斂穩定,適配離散動作場景;
    • 缺點是難處理連續動作空間,策略依賴價值函數估計精度;
    • 數學基礎為貝爾曼方程驅動價值迭代 。
基于策略的方法(Policy-Based)
  • 核心思想:直接優化策略函數 ( π ( a ∣ s ) (\pi(a|s) (π(as)(狀態到動作的概率分布 ),不用顯式算價值函數,靠策略梯度上升最大化長期回報。
  • 代表算法:
    • REINFORCE:用蒙特卡洛采樣估計梯度,但高方差讓收斂慢。
    • PPO:剪切實例目標函數限制策略更新幅度,平衡探索和利用,在工業界(像 ChatGPT 訓練 )常用。
    • TRPO:引入 KL 散度約束策略更新,保障訓練穩定。
  • 特點與局限:
    • 優點:適配連續動作空間,策略表達(概率分布形式 )靈活。
    • 缺點:高方差使樣本效率低,易陷入局部最優。
    • 數學基礎:策略梯度定理(Policy Gradient Theorem )支撐。
結合價值與策略的方法(Actor-Critic)
  • 核心思想:融合價值函數和策略函數優勢,“演員(Actor)” 生成策略,“評論家(Critic)” 評估動作價值,協同優化策略 。
  • 代表算法:
    • A2C/A3C:多線程異步更新加速訓練,Critic 算優勢函數指導 Actor 優化。
    • SAC:引入熵正則化鼓勵探索,適配復雜連續控制任務(如機器人行走 )。
  • 特點與局限:
    • 優點:平衡探索與利用,訓練效率高,適合復雜任務。
    • 缺點:結構復雜,要同時調優 Actor 和 Critic 網絡。
    • 數學基礎:TD 誤差(Temporal Difference Error )聯合優化策略與價值函數。

強化學習中不同方法的對比總結表

從策略生成方式、動作空間適用性、訓練穩定性和典型算法四個維度,對比了基于價值的方法、基于策略的方法、Actor - Critic 方法

維度基于價值的方法基于策略的方法Actor - Critic 方法
策略生成方式間接(貪心選擇 Q 值最大)直接(輸出動作概率)策略與價值函數聯合優化
動作空間適用性離散連續 / 離散連續 / 離散
訓練穩定性高(低方差)低(高方差)中等(需平衡兩者)
典型算法Q - Learning、DQNREINFORCE、PPOA2C、SAC

參考資料為《強化學習算法與應用綜述 - 李茹楊.pdf》(1.26MB ),可輔助深入了解這些強化學習方法 。

馬爾可夫決策過程(MDP)

MDP 整體定位

強化學習里,智能體與環境交互流程(智能體感知狀態→執行動作→環境轉移狀態并反饋獎勵 ),可用馬爾可夫決策過程(MDP)建模,它是強化學習的基礎理論框架。

在這里插入圖片描述

核心概念

1. 馬爾可夫(Markov)
  • 定義:一種 “無記憶性”(Memoryless Property),即未來狀態僅由當前狀態決定,和過去歷史狀態無關
  • 舉例:天氣預報中,若 “明天天氣只看今天,不受昨天及更早影響”,就符合馬爾可夫性。
  • 起源:俄國數學家 Andrey Andreevich Markov 提出馬爾可夫鏈,發現隨機系統 “未來僅與當前相關” 的特性,為 MDP 奠定數學基礎。
2. 馬爾可夫最重要性質
  • 核心無記憶性,讓建模 / 計算復雜度大幅降低 —— 無需記錄完整歷史,僅關注當前狀態即可。
  • 應用:在強化學習、排隊論、自然語言處理等領域廣泛應用,是馬爾可夫模型的理論基石。
  • 數學表達 ( P ( S t + 1 ∣ S t , S t ? 1 , . . . , S 0 ) = P ( S t + 1 ∣ S t ) (P(S_{t+1} | S_t, S_{t-1}, ..., S_0) = P(S_{t+1} | S_t) (P(St+1?St?,St?1?,...,S0?)=P(St+1?St?) 直觀體現 “未來僅由現在決定,與過去無關”。
3. 馬爾可夫過程(Markov Process,簡稱 MP)
  • 定義:滿足馬爾可夫性的隨機過程,由兩部分組成:
    • 狀態集合(State Space):系統所有可能狀態(如天氣模型里的 {晴天、雨天} )。
    • 狀態轉移概率矩陣(Transition Probability Matrix):定義當前狀態→下一狀態的轉移概率(如天氣模型中,晴天→晴天概率 0.9、晴天→雨天概率 0.1 等 )。
  • 舉例(天氣模型):
    • 狀態集合:{Sunny(晴天), Rainy(雨天)}
    • 轉移概率矩陣: (\begin{bmatrix} 0.9 & 0.1 \ 0.5 & 0.5 \end{bmatrix}) (第一行:晴天保持晴天概率 0.9、轉雨天概率 0.1;第二行:雨天保持雨天概率 0.5、轉晴天概率 0.5 )
4. 馬爾可夫決策過程(Markov Decision Process,MDP)
  • 定義:馬爾可夫過程的擴展,引入智能體的 “動作” 和 “獎勵機制”,用于建模序貫決策問題。核心元素用

    ? S , A , P , R , γ ? \langle S, A, P, R, \gamma \rangle ?S,A,P,R,γ?表示:

    • S(狀態集合):環境所有可能狀態(如天氣模型的 {Sunny, Rainy} )。
    • A(動作集合):智能體可采取的動作(如天氣模型里的 {帶傘、不帶傘} )。
    • P(轉移函數): P ( s ′ ∣ s , a ) P(s' | s, a) P(ss,a) 表示 “狀態 s 下執行動作 a,轉移到狀態 (s’) 的概率”(天氣模型中,轉移由自然規律決定,與動作無關,仍用之前的轉移矩陣 )。
    • R(獎勵函數): R ( s , a , s ′ R(s, a, s' R(s,a,s) 表示 “狀態 s 執行動作 a 并轉移到 (s’) 時,獲得的即時獎勵”(如天氣模型里,晴天帶傘獲 -1 獎勵、晴天不帶傘獲 0 獎勵等 )。
    • γ \gamma γ(折扣因子):未來獎勵的衰減系數,平衡 “當前獎勵” 和 “未來獎勵” 的重要性(如更看重眼前收益,或長期累積收益 )。
  • 目標:找到最優策略(Policy)—— 即從 “狀態→動作” 的映射,最大化長期累積獎勵。求解方法包括動態規劃、蒙特卡洛方法、時序差分學習等。

  • 舉例(天氣模型深化):

    • 狀態集合(S):{Sunny, Rainy}(天氣的兩種可能狀態 )。
    • 動作集合(A):{帶傘(Umbrella), 不帶傘(No_Umbrella)}(智能體在天氣下的行為選擇 )。
    • 轉移函數(P):同馬爾可夫過程,天氣轉移由自然規律決定,與動作無關,轉移矩陣不變。
    • 獎勵函數(R):
      • 晴天(Sunny):帶傘→獎勵 -1(攜帶不便);不帶傘→獎勵 0(舒適)。
      • 雨天(Rainy):帶傘→獎勵 2(避免淋雨,抵消攜帶不便);不帶傘→獎勵 -3(被淋濕)。

MDP小結

概念核心特點
馬爾可夫性質未來僅依賴當前狀態,無記憶性(基礎特性)
馬爾可夫過程(MP)狀態 + 轉移概率,被動觀測狀態演變(無動作干預)
MDP在 MP 基礎上,增加動作和獎勵,實現主動決策

簡言之,MDP 以 “馬爾可夫無記憶性” 為基石,先通過馬爾可夫過程描述狀態的隨機演變,再擴展引入 “動作” 和 “獎勵”,讓智能體可主動決策、優化長期收益,是強化學習建模序貫決策問題的核心工具。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/908799.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/908799.shtml
英文地址,請注明出處:http://en.pswp.cn/news/908799.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

19-Oracle 23 ai Database Sharding-知識準備

小伙伴是不是經常遇見大規模集群和數量的時候,業務就提出要對數據進行sharding。 Oracle 和其他數據庫(如 MySQL、PostgreSQL、MongoDB 等) 為什么要進行分片(sharding),分片的原因是什么,實現…

分類與邏輯回歸 - 一個完整的guide

線性回歸和邏輯回歸其實比你想象的更相似 😃 它們都是所謂的參數模型。讓我們先看看什么是參數模型,以及它們與非參數模型的區別。 線性回歸 vs 邏輯回歸 線性回歸:用于回歸問題的線性參數模型。邏輯回歸:用于分類問題的線性參數…

英語寫作中“每一個”each individual、every individual、every single的用法

一、Individual :個體,相對于團體,例如: Individual competition (個人比賽),相對于team competition (團體比賽) Individual users (個人用戶)…

由于 z(x,y) 的變化導致的影響(那部分被分給了鏈式項)

? 本質問題:為什么鏈式法則中 ? F ? x \frac{\partial F}{\partial x} ?x?F? 不考慮 z z ( x , y ) zz(x,y) zz(x,y)? 🔍 一、關鍵是:偏導數的定義是什么? 我們從最根本的定義開始: ? F ( x , y…

python打卡day44@浙大疏錦行

知識點回顧: 預訓練的概念常見的分類預訓練模型圖像預訓練模型的發展史預訓練的策略預訓練代碼實戰:resnet18 作業: 嘗試在cifar10對比如下其他的預訓練模型,觀察差異,盡可能和他人選擇的不同嘗試通過ctrl進入resnet的…

十一(3) 類,加深對拷貝構造函數的理解

class ClassName { public: // 拷貝構造函數:參數是同類型對象的引用(通常為 const 引用) ClassName(const ClassName& other) { // 復制 other 的成員變量到當前對象 } }; 參數要求:必須是同類型對象的引用&#xff0…

網頁后端開發(基礎1--maven)

maven的作用: Maven是一款管理和構建Java項目的工具。 1.依賴管理: 方便快捷的管理項目依賴的資源(jar包) 不用手動下載jar包,只需要中maven中引用,maven會查找本地倉庫。若本地倉庫沒有,會直…

認識電子元器件---高低邊驅動

目錄 一、基本概念 二、關鍵參數對比 三、工作原理 (1)高邊驅動 (2)低邊驅動 四、典型的應用場景 五、如何選擇 一、基本概念 可以理解成:高低邊驅動是MOS/IGBT的一種應用方式 高低邊驅動是電路拓撲概念&#…

JavaScript 標簽加載

目錄 JavaScript 標簽加載script 標簽的 async 和 defer 屬性,分別代表什么,有什么區別1. 普通 script 標簽2. async 屬性3. defer 屬性4. type"module"5. 各種加載方式的對比6. 使用建議 JavaScript 標簽加載 script 標簽的 async 和 defer …

C/CPP 結構體、聯合體、位段內存計算 指南

C/CPP 結構體、聯合體、位段內存計算 指南 在C語言中,結構體、聯合體和位段是對數據的高級抽象,它們可以讓程序員以更易于理解的方式來操作復雜的數據結構。然而,這些結構在內存中的布局可能并不如它們的語法結構那樣直觀,特別是當…

ASR(語音識別)語音/字幕標注 通過via(via_subtitle_annotator)

文章目錄 1 VIA 官網資料2 語音/字幕標注3 鍵盤快捷鍵常規當一個時間片段被選中時圖像或視頻幀中的空間區域 1 VIA 官網資料 VIA官網:https://www.robots.ox.ac.uk/~vgg/software/via/ VIA官網標注示例:https://www.robots.ox.ac.uk/~vgg/software/via/…

mq安裝新版-3.13.7的安裝

一、下載包,上傳到服務器 https://github.com/rabbitmq/rabbitmq-server/releases/download/v3.13.7/rabbitmq-server-generic-unix-3.13.7.tar.xz 二、 erlang直接安裝 rpm -ivh erlang-26.2.4-1.el8.x86_64.rpm不需要配置環境變量,直接就安裝了。 erl…

高通平臺PCIE EP模式log丟失問題

高通平臺PCIE EP模式log丟失問題 1 問題背景2 問題分析2.1 對比USB2.1.1 Logtool優化2.1.2 Device mhi與fs對比2.2 優化方案2.2.1 Diag系統優化2.2.2 Host mhi優化3 最終成果1 問題背景 高通5G模組如SDX55\SDX62\SDX65\SDX72\SDX75等支持pcie ep模式。會通過pcie與host(如MT7…

Python應用輸入輸出函數

大家好!在 Python 編程中,輸入輸出函數是與用戶進行交互的橋梁。通過輸入函數,我們可以獲取用戶的輸入數據;通過輸出函數,我們可以向用戶展示程序的運行結果。對于初學者來說,掌握基本的輸入輸出操作是編程入門的重要一…

如何使用 Ansible 在 Ubuntu 24.04 上安裝和設置 LNMP

在當今世界,自動化是有效管理和部署 Web 應用程序的關鍵。Ansible 是一個強大的自動化工具,它是一款開源軟件配置、配置管理和應用程序部署工具。本文將指導您使用 Ansible 在 Ubuntu 服務器上安裝 LNMP 堆棧(Linux、Nginx、MySQL、PHP)。 先決條件 為了執行本指南中討論的…

Xela矩陣三軸觸覺傳感器的工作原理解析與應用場景

Xela矩陣三軸觸覺傳感器通過先進技術模擬人類觸覺感知,幫助設備實現精確的力測量與位移監測。其核心功能基于磁性三維力測量與空間位移測量,能夠捕捉多維觸覺信息。該傳感器的設計不僅提升了觸覺感知的精度,還為機器人、醫療設備和制造業的智…

RK3288項目(四)--linux內核之V4L2框架及ov9281驅動分析(中)

目錄 一、引言 二、V4L2其他部件驅動分析 ------>2.1、mipi-dphy ------------>2.1.1、dts ------------>2.1.2、driver ------------>2.1.3、notifier機制 ------------>2.1.4、異步回調 ------------>2.1.5、V4L2 subdev ------>2.2、mipi-csi…

容器-使用slim減少10x+大模型鏡像

slim(原docker-slim)是一個開源工具,全稱SlimToolkit(https://github.com/slimtoolkit/slim),用于基于已有的Docker鏡像減小鏡像的大小,同時盡可能保留容器的功能。它通過分析鏡像的運行環境和應…

Golang基礎學習

?????????? 初見golang語法 go項目路徑 cd $GOPATH //ls可以看到有bin,pkg,src三個文件 cd src/ mkdir GolangStudy cd GolangStudy mkdir firstGolanggo程序執行: go run hello.go//如果想分兩步執行: go build hello.go ./hello導入包的…

OPenCV CUDA模塊圖像處理-----對圖像執行 均值漂移濾波(Mean Shift Filtering)函數meanShiftFiltering()

操作系統:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 編程語言:C11 算法描述 在 GPU 上對圖像執行 均值漂移濾波(Mean Shift Filtering),用于圖像分割或平滑處理。 該函數將輸入圖像中的…