【論文閱讀】Think Only When You Need with Large Hybrid-Reasoning Models

Think Only When You Need with Large Hybrid-Reasoning Models

  • 2 Large Hybrid-Reasoning Models
    • 2.1 Problem Formulation
      • 關鍵定義與目標
      • 核心挑戰與解決方案
  • 2.2 第一階段:混合微調(Hybrid Fine-Tuning, HFT)
    • 核心設計
      • 數據構建
      • 數據集統計
      • 優化目標(Optimize Objective)
    • 關鍵技術點
    • 階段輸出
  • 2.3 第二階段:混合組策略優化(Hybrid Group Policy Optimization, HGPO)
      • 無Critic模型架構
      • 計算優化特性
    • 算法框架
      • 采樣策略(Sampling Strategy)
      • 獎勵計算與分配(Reward Scoring and Assignment)
      • 優勢估計(Advantage Estimation)
      • 優化目標(Optimization Objective)
    • 算法特性
  • 2.4 混合推理能力評估
    • 評估流程

Think Only When You Need with Large Hybrid-Reasoning Models一文指出,當前的大型推理模型(LRMs)通過生成冗長的思維過程(如標記為 <think> 的中間步驟)顯著提升了推理能力,但這種方式在處理簡單查詢時會帶來不必要的計算開銷和延遲。為解決這一問題,作者提出了大型混合推理模型(LHRMs),這是第一種能夠根據用戶查詢的上下文信息自適應決定是否進行深入思考的模型。

為實現這一目標,作者設計了一個兩階段的訓練流程:

  • 混合微調(HFT):作為冷啟動階段,通過結合推理密集型(Thinking)和直接回答(No-Thinking)數據,使模型初步支持兩種推理模式。

  • 混合組策略優化(HGPO):一種在線強化學習方法,通過隱式學習選擇適當的思考模式,同時生成更有用且無害的響應。

此外,作者提出了“混合準確率”(Hybrid Accuracy)這一新指標,用于定量評估模型的混合推理能力。實驗結果表明,LHRMs能夠根據查詢的難度和類型自適應地選擇思考模式,在推理和通用任務上均優于現有的LRMs和LLMs,同時顯著提升了效率。

本篇博客聚焦文章的方法部分。

在這里插入圖片描述

2 Large Hybrid-Reasoning Models

2.1 Problem Formulation

本節正式定義了大型混合推理模型(LHRMs)的核心問題,即如何根據輸入查詢動態選擇最優推理模式(Thinking或No-Thinking)以最大化任務特定效用。

關鍵定義與目標

  1. 輸入與模式

    • 輸入查詢記為 qqq
    • 提供兩種推理模式:
      • 思考模式(?\vdash?:生成顯式推理步驟(如中間計算或邏輯鏈)
      • 非思考模式(?\nprec?:直接生成最終答案無需中間步驟
  2. 條件分布

    • 每種模式對應一個答案空間 A\mathcal{A}A 上的條件概率分布:
      P(a∣q,m),m∈M={?,?}(1)\mathcal{P}(a \mid q, m), \quad m \in \mathcal{M} = \{\vdash, \nprec\} \quad (1) P(aq,m),mM={?,?}(1)
  3. 最優模式選擇

    • 對每個查詢 qqq,選擇能最大化期望效用 U(q,a)\mathcal{U}(q,a)U(q,a) 的模式 m?(q)m^*(q)m?(q)
      m?(q)=arg?max?m∈MEa~P(a∣q,m)[U(q,a)](2)m^*(q) = \arg\max_{m\in\mathcal{M}} \mathbb{E}_{a\sim\mathcal{P}(a|q,m)}\Big[\mathcal{U}(q,a)\Big] \quad (2) m?(q)=argmMmax?EaP(aq,m)?[U(q,a)](2)
  4. 全局優化目標

    • 學習策略 π:Q→M\pi: \mathcal{Q}\rightarrow\mathcal{M}π:QM 以最大化跨任務分布的期望效用:
      max?π1N∑i=1NEDi~Θ,Di?Ui[Ea~P(a∣q,π(q)),q~Di[Ui(q,a)]](3)\max_{\pi} \frac{1}{N}\sum_{i=1}^N \mathbb{E}_{\mathcal{D}_i\sim\Theta, \mathcal{D}_i\Leftrightarrow\mathcal{U}_i}\Bigg[\mathbb{E}_{a\sim\mathcal{P}(a|q,\pi(q)), q\sim\mathcal{D}_i}\Big[\mathcal{U}_i(q,a)\Big]\Bigg] \quad (3) πmax?N1?i=1N?EDi?Θ,Di??Ui??[EaP(aq,π(q)),qDi??[Ui?(q,a)]](3)
      其中 Θ={(Di,Ui)}i=1N\Theta = \{(\mathcal{D}_i,\mathcal{U}_i)\}_{i=1}^NΘ={(Di?,Ui?)}i=1N? 表示不同任務的數據分布和效用函數對。

核心挑戰與解決方案

  1. 策略學習(C1)

    • 通過兩階段訓練實現:
      • 階段I:混合微調(HFT)冷啟動
      • 階段II:混合組策略優化(HGPO)強化學習
  2. 評估指標(C2)

    • 提出混合準確率 Hacc\mathcal{H}_{\text{acc}}Hacc? 量化模式選擇能力

2.2 第一階段:混合微調(Hybrid Fine-Tuning, HFT)

本節詳細介紹了LHRMs訓練流程的第一階段——混合微調(HFT),這是模型冷啟動的關鍵步驟。

核心設計

數據構建

HFT使用混合格式的監督微調數據集,包含兩類數據:

  1. 思考模式數據

    • 來源:數學(MATH)、編程(Code)和科學領域的高質量數據集
    • 處理方式:
      • 使用DeepSeek-R1生成答案
      • 人工驗證正確性
      • 添加<think></think>標簽標記推理步驟
      • 示例:
        <think>
        首先分析約束條件...然后推導可能的解...
        </think>
        最終答案是$\boxed{17}$
        
  2. 非思考模式數據

    • 來源:WildChat-1M中的簡單查詢
    • 處理方式:
      • 使用FastText分類器過濾復雜推理任務
      • 添加<no_think></no_think>標簽
      • 示例:
        <no_think>
        當然,請問您需要什么幫助?
        </no_think>
        

數據集統計

類別數據量平均token長度主要來源
思考模式631,325575SYNTHETIC-1, OpenMath
非思考模式674,9084,897WildChat-1M, OASST2
總計1,694,586--

優化目標(Optimize Objective)

HFT階段通過標準的語言建模目標訓練模型,使其能夠基于上文預測下一個token。對于構建的數據集DHFT={(xi,yi)}i=1N\mathcal{D}_{\text{HFT}} = \{(x^i, y^i)\}_{i=1}^NDHFT?={(xi,yi)}i=1N?,其優化目標定義為:

LHFT(θ)=?E(x,y)~DHFT[∑t=1∣y∣log?πθ(yt∣x,y1:t?1)](4)\mathcal{L}_{\text{HFT}}(\theta) = -\mathbb{E}_{(x,y)\sim\mathcal{D}_{\text{HFT}}} \left[ \sum_{t=1}^{|y|} \log \pi_\theta(y_t \mid x, y_{1:t-1}) \right] \quad (4) LHFT?(θ)=?E(x,y)DHFT???t=1y?logπθ?(yt?x,y1:t?1?)?(4)

其中:

  • θ\thetaθ:模型參數
  • (x,y)(x,y)(x,y):輸入-輸出對
  • πθ\pi_\thetaπθ?:模型參數化的概率分布

關鍵技術點

  1. 防模式崩潰設計

    • 對同一查詢同時提供兩種格式的答案
    • 示例:
      # 思考模式
      "計算2+2": "<think>2加2等于4</think>"# 非思考模式 
      "計算2+2": "<no_think>4</no_think>"
      
  2. 數據平衡策略

    • 思考模式與非思考模式樣本比例 ≈ 1:1
    • 每個batch內兩種模式均勻混合
  3. 訓練配置

    • 優化器:AdamW(lr=1e-4)
    • 批次大小:128
    • 序列長度:32k tokens
    • 訓練時長:7B模型約2.5天(4×NVIDIA H100節點)

階段輸出

HFT階段產出的模型πθHFT\pi_{\theta_{\text{HFT}}}πθHFT??具備:

  • 同時支持兩種推理模式的能力
  • 穩定的模式切換基礎
  • 為第二階段RL訓練提供優質初始化

2.3 第二階段:混合組策略優化(Hybrid Group Policy Optimization, HGPO)

本節詳細介紹訓練流程的第二階段——混合組策略優化(HGPO),這是一種創新的強化學習算法,用于優化模型的自適應推理能力。

在這里插入圖片描述
HGPO的完整流程如圖2和算法1所示,通過以下創新設計降低計算成本:

無Critic模型架構

  1. 核心設計

    • 摒棄傳統強化學習中的critic(價值函數)模型
    • 采用多樣本估計替代價值函數計算
  2. 采樣機制

    • 對提示集P\mathcal{P}P中的每個問題qqq
    • 從舊策略πθHFT\pi_{\theta_{\text{HFT}}}πθHFT??中采樣兩組輸出:
      • 思考模式組N/2N/2N/2個含推理過程的響應
      • 非思考模式組N/2N/2N/2個直接答案

計算優化特性

設計選擇傳統RLHGPO優勢
價值估計Critic模型預測多樣本直接統計減少40%訓練內存
梯度計算依賴價值函數導數零階策略梯度避免梯度沖突問題
模式切換成本需要重訓練critic動態樣本重加權支持在線模式切換

算法框架

采樣策略(Sampling Strategy)

對于每個查詢q∈Pq \in \mathcal{P}qP,從初始策略πθHFT\pi_{\theta_{\text{HFT}}}πθHFT??中按兩種模式分別采樣N/2N/2N/2個候選響應:

{oi?}i=1N/2~πθHFT(?∣q,m=?),{oi?}i=1N/2~πθHFT(?∣q,m=?)(5)\{o_i^\vdash\}_{i=1}^{N/2} \sim \pi_{\theta_{\text{HFT}}}(\cdot \mid q, m=\vdash), \quad \{o_i^\nprec\}_{i=1}^{N/2} \sim \pi_{\theta_{\text{HFT}}}(\cdot \mid q, m=\nprec) \quad (5) {oi??}i=1N/2?πθHFT??(?q,m=?),{oi??}i=1N/2?πθHFT??(?q,m=?)(5)

完整候選集定義為:

O(q)={oi?}i=1N/2∪{oi?}i=1N/2(6)\mathcal{O}(q) = \{o_i^\vdash\}_{i=1}^{N/2} \cup \{o_i^\nprec\}_{i=1}^{N/2} \quad (6) O(q)={oi??}i=1N/2?{oi??}i=1N/2?(6)

實現細節

  • 默認N=4N=4N=4(每種模式2個樣本)
  • 溫度系數τ=0.7\tau=0.7τ=0.7控制多樣性
  • 禁止重復采樣機制

獎勵計算與分配(Reward Scoring and Assignment)

使用獎勵函數R?R_\phiR??對候選輸出評分,生成兩組獎勵值:

R?={r(oi?)}i=1N/2,R?={r(oi?)}i=1N/2(7)\mathcal{R}^\vdash = \{r(o_i^\vdash)\}_{i=1}^{N/2}, \quad \mathcal{R}^\nprec = \{r(o_i^\nprec)\}_{i=1}^{N/2} \quad (7) R?={r(oi??)}i=1N/2?,R?={r(oi??)}i=1N/2?(7)

計算各模式平均獎勵:

Rˉ?=2N∑i=1N/2r(oi?),Rˉ?=2N∑i=1N/2r(oi?)(8)\bar{\mathcal{R}}^\vdash = \frac{2}{N}\sum_{i=1}^{N/2} r(o_i^\vdash), \quad \bar{\mathcal{R}}^\nprec = \frac{2}{N}\sum_{i=1}^{N/2} r(o_i^\nprec) \quad (8) Rˉ?=N2?i=1N/2?r(oi??),Rˉ?=N2?i=1N/2?r(oi??)(8)

定義兩種獎勵類型:

  1. 組間獎勵(Inter-group):
    rinter(oim)={1,if?m=arg?max?m′∈{?,?}{Rˉ?,Rˉ?+δ}0,otherwise(9a)r_{\text{inter}}(o_i^m) = \begin{cases} 1, & \text{if } m = \arg\max_{m'\in\{\vdash,\nprec\}} \{\bar{\mathcal{R}}^\vdash, \bar{\mathcal{R}}^\nprec + \delta\} \\ 0, & \text{otherwise} \end{cases} \quad (9a) rinter?(oim?)={1,0,?if?m=argmaxm{?,?}?{Rˉ?,Rˉ?+δ}otherwise?(9a)
  2. 組內獎勵(Intra-group):
    rintra(oim)={1,if?i=arg?max?j∈{1,...,N/2}rjm0,otherwise(9b)r_{\text{intra}}(o_i^m) = \begin{cases} 1, & \text{if } i = \arg\max_{j\in\{1,...,N/2\}} r_j^m \\ 0, & \text{otherwise} \end{cases} \quad (9b) rintra?(oim?)={1,0,?if?i=argmaxj{1,...,N/2}?rjm?otherwise?(9b)

關鍵參數

  • δ\deltaδ:模式偏好邊際(默認0.2)
  • 規則型獎勵用于數學/編程等確定性任務
  • 參數化獎勵模型用于開放域任務

δ\deltaδ這個參數的出現提供了一種可以控制模型思考偏好的方法,在具體工程實現中,可以基于任務種類設置不同的δ\deltaδ達到控制長短的目的

優勢估計(Advantage Estimation)

采用GRPO優勢估計器:

Ait=[rintra(oi)?mean(rintra(oj))std(rintra(oj))]?Intra-group+1{oit∈Φ}?α[rinter(oi)?mean(rinter(oj))std(rinter(oj))]?Inter-group(10)A_i^t = \underbrace{\left[\frac{r_{\text{intra}}(o_i) - \text{mean}(r_{\text{intra}}(o_j))}{\text{std}(r_{\text{intra}}(o_j))}\right]}_{\text{Intra-group}} + \underbrace{\mathbb{1}\{o_i^t \in \Phi\} \cdot \alpha \left[\frac{r_{\text{inter}}(o_i) - \text{mean}(r_{\text{inter}}(o_j))}{\text{std}(r_{\text{inter}}(o_j))}\right]}_{\text{Inter-group}} \quad (10) Ait?=Intra-group[std(rintra?(oj?))rintra?(oi?)?mean(rintra?(oj?))?]??+Inter-group1{oit?Φ}?α[std(rinter?(oj?))rinter?(oi?)?mean(rinter?(oj?))?]??(10)

其中:

  • Φ={<think>,<no_think>}\Phi = \{\text{<think>}, \text{<no\_think>}\}Φ={<think>,<no_think>}為模式標記集合
  • α=1.0\alpha=1.0α=1.0為平衡系數

優化目標(Optimization Objective)

最大化以下目標函數:

JHGPO(θ)=Eq~P,{oim}~πθHFT[1N∑i=1N∑t=1∣o∣[min?(πθ(oim,t∣q,oim,<t)πθHFT(oim,t∣q,oim,<t)Ait,clip(πθ(oim,t∣q,oim,<t)πθHFT(oim,t∣q,oim,<t),1??,1+?)Ait)?βDKL(πθ∣∣πref)]](11)\mathcal{J}_{\text{HGPO}}(\theta) = \mathbb{E}_{q\sim\mathcal{P}, \{o_i^m\}\sim\pi_{\theta_{\text{HFT}}}}\Bigg[ \frac{1}{N}\sum_{i=1}^N \sum_{t=1}^{|o|} \bigg[ \min\Bigg( \frac{\pi_\theta(o_i^{m,t}|q,o_i^{m,<t})}{\pi_{\theta_{\text{HFT}}}(o_i^{m,t}|q,o_i^{m,<t})} A_i^t, \\ \text{clip}\Bigg(\frac{\pi_\theta(o_i^{m,t}|q,o_i^{m,<t})}{\pi_{\theta_{\text{HFT}}}(o_i^{m,t}|q,o_i^{m,<t})}, 1-\epsilon, 1+\epsilon\Bigg) A_i^t \bigg) - \beta \mathbb{D}_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) \bigg] \Bigg] \quad (11) JHGPO?(θ)=EqP,{oim?}πθHFT???[N1?i=1N?t=1o?[min(πθHFT??(oim,t?q,oim,<t?)πθ?(oim,t?q,oim,<t?)?Ait?,clip(πθHFT??(oim,t?q,oim,<t?)πθ?(oim,t?q,oim,<t?)?,1??,1+?)Ait?)?βDKL?(πθ?∣∣πref?)]](11)

KL散度項展開為:

DKL(πθ∣∣πref)=πref(oim∣q)πθ(oim∣q)?log?πref(oim∣q)πθ(oim∣q)?1(12)\mathbb{D}_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) = \frac{\pi_{\text{ref}}(o_i^m|q)}{\pi_\theta(o_i^m|q)} - \log \frac{\pi_{\text{ref}}(o_i^m|q)}{\pi_\theta(o_i^m|q)} - 1 \quad (12) DKL?(πθ?∣∣πref?)=πθ?(oim?q)πref?(oim?q)??logπθ?(oim?q)πref?(oim?q)??1(12)

訓練配置

  • 學習率:1×10?61\times10^{-6}1×10?6(恒定)
  • 批次大小:256(微批次8)
  • KL系數β=0.001\beta=0.001β=0.001
  • 裁剪閾值?=0.5\epsilon=0.5?=0.5
  • 訓練時長:2天(4×H100)

算法特性

  1. 雙重獎勵機制

    • 組間獎勵引導模式選擇
    • 組內獎勵優化內容質量
  2. 策略約束

    • KL懲罰項防止過度偏離初始策略
    • 重要性采樣裁剪保證穩定性
  3. 零階優化
    無需價值函數模型,直接基于樣本獎勵優化

2.4 混合推理能力評估

為更全面地評估LHRMs的性能(超越傳統下游任務指標),文章提出新指標混合準確率(Hybrid Accuracy, Hacc\mathcal{H}_{acc}Hacc?,用于量化模型選擇正確推理模式的能力。

評估流程

給定任務提示集P={pi}i=1K\mathcal{P} = \{p_i\}_{i=1}^KP={pi?}i=1K?

  1. 對每個pip_ipi?,模型在?\vdash??\nprec?模式下各生成NNN個響應
  2. 使用獎勵模型R?R_\phiR??對響應評分,計算各模式平均得分Rˉ?\bar{\mathcal{R}}^\vdashRˉ?Rˉ?\bar{\mathcal{R}}^\nprecRˉ?
  3. 確定基準模式mgtm_{gt}mgt?
    • ∣Rˉ??Rˉ?∣>?|\bar{\mathcal{R}}^\vdash - \bar{\mathcal{R}}^\nprec| > \epsilonRˉ??Rˉ?>?,選擇高分模式
    • 否則選擇響應更短的模式
  4. 模型自主選擇模式mpm_pmp?,計算匹配比例:

Hacc=1K∑i=1K1[Equal(mgt,mp)]s.t.mgt,mp∈{?,?}(13)\mathcal{H}_{acc} = \frac{1}{K}\sum_{i=1}^K \mathbb{1}\left[\text{Equal}(m_{gt}, m_p)\right] \quad \text{s.t.} \quad m_{gt}, m_p \in \{\vdash, \nprec\} \quad (13) Hacc?=K1?i=1K?1[Equal(mgt?,mp?)]s.t.mgt?,mp?{?,?}(13)

關鍵參數

  • ?\epsilon?:模式得分差異閾值(默認0.05)
  • NNN:每種模式采樣數(默認4)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/90926.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/90926.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/90926.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

洛谷 P13014:[GESP202506 五級] 最大公因數

【題目來源】 https://www.luogu.com.cn/problem/P13014 【題目描述】 對于兩個正整數 &#xff0c;他們的最大公因數記為 。對于 個正整數 &#xff0c;他們的最大公因數為&#xff1a; 給定 個正整數 以及 組詢問。對于第 組詢問&#xff0c;請求出 的最大公因數&…

構建應用內智能:衡石嵌入式BI如何打造“指標中臺”驅動的場景化分析

在當今數據驅動的業務環境中&#xff0c;將智能分析能力深度嵌入業務應用&#xff08;如CRM、ERP、SCM、自研SaaS&#xff09;已成為剛需。然而&#xff0c;實現高性能、一致性、可治理的嵌入式分析面臨巨大技術挑戰。衡石科技通過其核心的指標中臺&#xff08;Metric Platform…

帶貨視頻評論洞察 Baseline 學習筆記 (Datawhale Al夏令營)

一、 項目認識背景&#xff1a;電商直播/短視頻已積累大量「視頻 評論」數據&#xff0c;蘊含了消費者的真實反饋。目標&#xff1a;通過「商品識別 → 情感分析 → 評論聚類」三步&#xff0c;輔助品牌洞察、網紅投放評估。二、 Baseline 代碼流程1. 讀取和預處理video_data …

uniapp中使用uView-plus踩坑記錄

???1.使用插件市場安裝點擊到插件市場 零云uview-plus3.0重磅發布&#xff0c;全面的Vue3鴻蒙移動組件庫。 - DCloud 插件市場 點擊選擇項目直接導入就可以&#xff0c;下載完成后會在uni_modules中&#xff0c;這個.gitignore中不可忽略 ? 使用在main.js里引入 import…

openGauss數據庫管理實戰指南——基本常用操作總結

查看所有數據庫 查看所有表 \d 查看函數定義 查看所有用戶 select usename from pg_user; 1.數據庫創建管理 CREATE DATABASE test; 2.數據庫用戶創建管理 CREATE USER tom PASSWORD Root123456.; 3.表的創建及管理 3.1.創建表 CREATE TABLE test(ID INTEGER PRIMARY …

智慧公安信息化建設解決方案PPT(63頁)

智慧公安的定義與職能 智慧公安是利用現代信息技術提升公安工作效率與服務質量的新模式&#xff0c;涵蓋刑事偵查、治安管理、交通管理等多方面職能&#xff0c;致力于保障社會安全與秩序。 智慧公安信息化建設的重要性 信息化建設是智慧公安發展的核心&#xff0c;通過數據…

k8s存儲入門

目錄 一、 Volume 的概念 二、 Volume 的類型 三、 通過 emptyDir 共享數據 1. EmptyDir 特性 2. EmptyDir 共享數據 四&#xff1a;使用 HostPath 掛載宿主機文件 1. HostPath 特性 2. 掛載宿主機時區文件 五、 掛載 NFS 至容器 1. 前置準備&#xff08;所有 K8s 節…

基于 Flutter 的開源文本 TTS 朗讀器(支持 Windows/macOS/Android)

界面特性 基于 Flutter 的文本 TTS 朗讀器支持 Windows、macOS、AndroidTTS 源&#xff1a;OpenAI TTS、Microsoft TTS支持設置代理支持設置應用主題支持倍速支持書簽支持點擊指定地方朗讀支持 txt、epub、貼粘文本支持從上次地方開始朗讀 源代碼https://github.com/xchenhao/t…

深入理解大語言模型:從核心技術到極簡實現

零基礎的讀者建議先看《零基礎理解大語言模型&#xff1a;從生活例子到代碼實現》&#xff0c;本教程的完整代碼可以在GitHub上找到&#xff0c;如果你有任何問題或建議&#xff0c;歡迎交流討論。 引言 自ChatGPT橫空出世以來&#xff0c;大語言模型&#xff08;Large Langua…

7月13日日記

看來每天寫一篇日記對我來說還是一個不小的挑戰。主要是和惰性做抗爭吧。但是這個東西說實話也沒有什么難度&#xff0c;也并不占用時間&#xff0c;一篇日記大概十幾分鐘就可以寫完。可能更多的是健忘。忘了每天有一個這樣的小任務。忘了前幾天日記寫沒寫了&#xff0c;三下鄉…

《Stata面板數據分析:數據檢驗、回歸模型與診斷技術 - 以NLSW工資研究(公開數據)為例》

本教程旨在全面介紹使用 Stata 進行面板數據分析的方法和技巧。我們將以美國國家縱向調查(NLSW)的數據為例,系統地探討從基礎 OLS 回歸到高級固定效應模型的分析過程。 NLSW 數據集是公開的,可以免費獲取,這為讀者提供了實踐和復現的機會。 通過這個教程,您將掌握使用 …

【VSCode+LaTeX】科研寫作環境搭建

文章目錄0 引言為什么選擇LaTeXVSCode&#xff1f;為什么不選擇Overleaf&#xff1f;1 TeXLive安裝1.1 下載安裝包1.2 運行安裝程序1.3 通過鏡像安裝2 VSCode安裝與配置2.1 下載VSCode安裝包2.2 安裝VSCode2.3 安裝中文語言包2.4 配置LaTeX核心擴展2.5 加載TeX模版文件2.6 編譯…

Surfer軟件入門與等值線繪制實操教程

本文還有配套的精品資源&#xff0c;點擊獲取 簡介&#xff1a;本教程將指導初學者如何使用Surfer軟件進行地質繪圖&#xff0c;重點在于等值線的繪制技巧和提升圖形質量。內容涵蓋Surfer界面介紹、數據導入、等值線繪制方法、樣式設置、地圖增強技術以及輸出保存方法&#…

攻防世界——Web題 very_easy_sql

目錄 payload1 payload2 payload3 看到了題目是sql就猜測是sql注入和萬能密碼了&#xff0c;但怎么試貌似都沒有反應&#xff0c;看源代碼發現了use.php 訪問use.php頁面 可以猜測這里是SSRF&#xff0c;可以訪問到我們本不能訪問的界面&#xff0c;比如&#xff1a;服務器…

基于 SpringBoot 的 REST API 與 RPC 調用的統一封裝

一、為何需要統一封裝&#xff1f; 在討論統一封裝之前&#xff0c;我們先看看 REST 和 RPC 各自的適用場景。 REST API 基于 HTTP 協議&#xff0c;采用 JSON 作為數據交換格式&#xff0c;可讀性好且跨語言&#xff0c;非常適合對外提供服務。 RPC&#xff08;如 Dubbo、gRPC…

【SpringBoot】 整合MyBatis+Postgresql

MyBatis 是一個輕量級的持久化框架&#xff0c;用于簡化數據庫訪問和操作。它通過將 SQL 語句與 Java 代碼分離&#xff0c;允許開發者使用 XML 或注解來配置 SQL 語句&#xff0c;并將結果映射為 Java 對象。MyBatis 提供了靈活的 SQL 控制&#xff0c;適合需要精細控制 SQL 的…

無縫銜接直播流體驗

文章目錄前言&#x1f9e0; 1. 為什么能“無縫銜接”&#xff1f;&#x1f9f0; 2. Flutter 實現方案? 總體策略&#x1f3af; 核心技術點? a. 使用全局播放器管理器&#xff08;單例模式&#xff09;? b. 廣場頁中的直播卡片使用播放器? c. 詳情頁復用控制器? d. 頁面切換…

[論文閱讀] 軟件工程 | 首個德語軟件工程情感分析黃金標準數據集:構建與價值解析

首個德語軟件工程情感分析黃金標準數據集&#xff1a;構建與價值解析 論文標題&#xff1a;A German Gold-Standard Dataset for Sentiment Analysis in Software EngineeringarXiv:2507.07325 A German Gold-Standard Dataset for Sentiment Analysis in Software Engineering…

PyTorch編程實踐:一文就入門的上手開發!

引言 PyTorch作為當今深度學習領域最流行的框架之一&#xff0c;以其動態計算圖、直觀的Python接口和強大的GPU加速能力&#xff0c;贏得了眾多研究人員和工程師的青睞。本文將深入探討PyTorch的編程實踐&#xff0c;從基礎概念到高級應用&#xff0c;幫助讀者全面掌握這一強大…

關于學習docker中遇到的問題

Cannot connect to the Docker daemon at unix:///home/pc/.docker/desktop/docker.sock. Is the docker daemon running?如何配置新的路徑 #運行這條命令&#xff0c;查看docker狀態 sudo systemctl status docker如圖所示表示監聽路徑不對&#xff0c;因此修改路徑即可&…