【DeepSeek系列】04 DeepSeek-R1:帶有冷啟動的強化學習

文章目錄

    • 1、簡介
    • 2、主要改進點
    • 3、兩個重要觀點
    • 4、四階段后訓練詳細步驟
      • 4.1 冷啟動
      • 4.2 推理導向的強化學習
      • 4.3 拒絕采樣和有監督微調
      • 4.4 針對所有場景的強化學習
    • 5、蒸餾與強化學習對比
    • 6、評估
      • 6.1 DeepSeek-R1 評估
      • 6.2 蒸餾模型評估
    • 7、結論
    • 8、局限性與未來方向

1、簡介

DeepSeek-R1-Zero的提出,展現了其強大的推理能力,但是它也有一些缺點,例如可讀性差和語言混用。為了解決這些問題并進一步提升推理性能,進一步推出了 DeepSeek-R1,它在 RL 之前引入了多階段訓練和冷啟動數據。DeepSeek-R1 在推理任務上的表現與 OpenAI-o1-1217 相當。為了支持研究社區,團隊開源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 從 DeepSeek-R1 蒸餾出的六個密集模型(1.5B、7B、8B、14B、32B、70B)。
在這里插入圖片描述

2、主要改進點

DeepSeek-R1結合了少量冷啟動數據和多階段訓練流程。具體而言:

  • 首先收集數千條冷啟動數據(長鏈式思考CoT示例)以微調 DeepSeek-V3-Base 模型。
  • 隨后,像 DeepSeek-R1-Zero 一樣進行推理導向的 RL 訓練。
  • 在 RL 訓練接近收斂時,通過拒絕采樣在 RL 權重文件上生成新的 SFT 數據,并結合 DeepSeek-V3 在寫作、事實問答和自我認知等領域的監督數據,然后重新訓練 DeepSeek-V3-Base 模型。
  • 經過新數據的微調后,模型權重會經歷一個額外的 RL 過程,涵蓋所有場景的提示。經過這些步驟,得到了一個稱為 DeepSeek-R1 的模型,其表現與 OpenAI-o1-1217 相當。

團隊進一步探索了從 DeepSeek-R1 到更小密集模型的知識蒸餾。使用 Qwen2.532B(Qwen, 2024b)作為基礎模型,直接從 DeepSeek-R1 進行蒸餾的表現優于在其上應用 RL。這表明,大型基礎模型發現的推理模式對于提升推理能力至關重要。團隊開源了基于 Qwen 和 Llama(Dubey et al., 2024)系列的蒸餾模型。值得注意的是,蒸餾出的 14B 模型大幅超越了當前最先進的開源模型 QwQ-32B-Preview(Qwen, 2024a),而蒸餾出的 32B 和 70B 模型在密集模型的推理基準測試中創下了新的記錄。

3、兩個重要觀點

后訓練:在基礎模型上進行大規模強化學習

  • 直接在基礎模型上應用 RL,而不依賴于有監督的微調(SFT)作為初步步驟。這種方法允許模型探索解決復雜問題的鏈式思考(CoT),從而開發出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我驗證、反思和生成長鏈式思考的能力,這標志著研究社區的一個重要里程碑。值得注意的是,這是首次公開研究驗證 LLMs 的推理能力可以通過純 RL 激勵,而無需 SFT。這一突破為該領域的未來發展鋪平了道路。
  • 介紹了開發 DeepSeek-R1 的流程。該流程包含兩個 RL 階段,旨在發現改進的推理模式并與人類偏好對齊,以及兩個 SFT 階段,作為模型推理和非推理能力的種子。我們相信這一流程將有助于行業開發更好的模型。

蒸餾:小模型也可以很強大

  • 證明了大型模型的推理模式可以被蒸餾到小模型中,其表現優于通過在小模型上應用 RL 發現的推理模式。開源的 DeepSeek-R1 及其 API 將有助于研究社區在未來蒸餾出更好的小模型。
  • 使用 DeepSeek-R1 生成的推理數據,我們微調了研究社區廣泛使用的幾種密集模型。評估結果表明,蒸餾后的小型密集模型在基準測試中表現出色。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上達到了 55.5%,超過了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上達到了 72.6%,在 MATH-500 上達到了 94.3%,在 LiveCodeBench 上達到了 57.2%。這些結果顯著優于之前的開源模型,并且與 o1-mini 相當。我們開源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 檢查點,供社區使用。

4、四階段后訓練詳細步驟

受 DeepSeek-R1-Zero 令人鼓舞的結果啟發,自然會提出兩個問題:

  • 1)通過引入少量高質量數據作為冷啟動,是否可以進一步提升推理性能或加速收斂?
  • 2)如何訓練一個用戶友好的模型,使其不僅能夠生成清晰連貫的推理過程(Chain-of-Thought, CoT),還能展現出強大的通用能力?

為了解決這些問題,我們設計了訓練 DeepSeek-R1 的流程。該流程包含四個階段,具體如下。

4.1 冷啟動

與 DeepSeek-R1-Zero 不同,為了避免從基礎模型開始的 RL 訓練在早期不穩定,DeepSeek-R1構建并收集了少量長鏈式思考(CoT)數據,用于微調模型作為初始的 RL 。為了收集這些數據,我們探索了多種方法:

  • 使用長 CoT 示例作為少樣本提示,直接提示模型生成帶有反思和驗證的詳細答案,收集 DeepSeek-R1-Zero 輸出并將其格式化為可讀格式;
  • 以及通過人類標注者對結果進行后處理以優化結果。

在本工作中,我們收集了數千條冷啟動數據,用于微調 DeepSeek-V3-Base 作為 RL 的起點。與 DeepSeek-R1-Zero 相比,冷啟動數據的優勢包括:

  • 可讀性:DeepSeek-R1-Zero 的一個關鍵限制是其內容往往不適合閱讀。回答可能會混用多種語言,或者缺乏用于突出顯示答案的 Markdown 格式。相比之下,在為 DeepSeek-R1 創建冷啟動數據時,我們設計了一種可讀的模式,包括在每條回答的末尾添加總結,并過濾掉對讀者不友好的回答。在這里,我們定義輸出格式為 |特殊標記|<推理過程>|特殊標記|<總結>,其中推理過程是查詢的 CoT,總結用于概括推理結果。
  • 潛力:通過精心設計冷啟動數據的模式并引入人類先驗知識,我們觀察到與 DeepSeek-R1-Zero 相比,模型表現更好。我們相信迭代訓練是推理模型的更好方式。

4.2 推理導向的強化學習

在使用冷啟動數據對 DeepSeek-V3-Base 進行微調后,我們應用了與 DeepSeek-R1-Zero 中相同的強化學習訓練過程。這一階段專注于提升模型在推理密集型任務(如編程、數學、科學和邏輯推理)中的推理能力,這些任務涉及定義明確且有明確答案的問題。

在訓練過程中,我們觀察到 CoT 經常出現語言混用,尤其是在涉及多種語言的 RL 提示時。為了緩解 CoT 中的語言混用問題,我們在 RL 訓練中引入了語言一致性獎勵,該獎勵計算為 CoT 中目標語言單詞的比例。盡管消融實驗表明,這種對齊會導致模型性能略有下降,但這種獎勵與人類偏好一致,使輸出更具可讀性。

最后,我們將推理任務的準確性獎勵語言一致性獎勵直接相加,形成最終的獎勵。然后我們在推理任務上對微調后的模型進行強化學習訓練,直到模型收斂。

4.3 拒絕采樣和有監督微調

當推理導向的強化學習收斂時,我們利用上述訓練階段得到的模型來收集下一輪的有監督微調(SFT)數據。與初始的冷啟動數據(主要關注推理)不同,這一階段結合了其他領域的數據,以增強模型在寫作、角色扮演和其他通用任務中的能力。具體來說,我們按照以下方式生成數據并微調模型:

推理數據

  • 我們策劃了推理提示,并通過拒絕采樣從上述強化學習訓練階段得到的模型生成推理軌跡。在前一階段,我們僅包含可以使用基于規則的獎勵進行評估的數據。然而,在這一階段,我們通過擴展數據集,引入了一些額外的數據,其中一些使用生成式獎勵模型,通過將真實答案和模型預測輸入 DeepSeek-V3 進行判斷。此外,由于模型輸出有時會顯得混亂且難以閱讀,我們過濾掉了混用語言、長段落和代碼塊的 CoT。對于每個提示,我們采樣多個回答,并僅保留正確的回答。總共收集了約 60 萬條與推理相關的訓練樣本。

非推理數據

  • 對于非推理數據(如寫作、事實問答、自我認知和翻譯),我們采用了 DeepSeek-V3 的流程,并重用了 DeepSeek-V3 SFT 數據集的部分內容。對于某些非推理任務,我們通過提示 DeepSeek-V3 生成潛在的 CoT,然后回答問題。然而,對于更簡單的問題(如“你好”),我們不會提供 CoT 回答。最終,我們總共收集了約 20 萬條與推理無關的訓練樣本。

我們使用上述策劃的約 80 萬樣本數據集對 DeepSeek-V3-Base 進行了兩個周期的微調。

4.4 針對所有場景的強化學習

為了進一步使模型與人類偏好對齊,我們實施了第二個強化學習階段,旨在提升模型的有用性和無害性,同時優化其推理能力。具體來說,我們使用組合的獎勵信號和多樣化的提示分布來訓練模型。

  • 對于推理數據,我們遵循 DeepSeek-R1-Zero 中描述的方法,使用基于規則的獎勵來指導數學、編程和邏輯推理領域的學習過程。
  • 對于通用數據,我們則依賴于獎勵模型來捕捉復雜且微妙場景中的人類偏好。我們基于 DeepSeek-V3 流程,采用了類似的偏好對和訓練提示分布。
  • 在有用性方面,我們僅關注最終總結,確保評估側重于回答對用戶的實用性和相關性,同時盡量減少對底層推理過程的干擾。
  • 在無害性方面,我們評估模型的整個回答,包括推理過程和總結,以識別和減輕在生成過程中可能出現的任何潛在風險、偏見或有害內容。

最終,通過整合獎勵信號和多樣化的數據分布,我們訓練出的模型不僅在推理方面表現出色,還優先考慮了有用性和無害性。

5、蒸餾與強化學習對比

作者在 Qwen-32B-Base 模型上進行了大規模強化學習訓練,使用數學、編程和 STEM 相關數據,訓練了超過 10,000 步,最終得到了 DeepSeek-R1-Zero-Qwen-32B。實驗結果如表 6 所示,經過大規模強化學習訓練的 32B 基礎模型,其性能與 QwQ-32B-Preview 相當。然而,通過 DeepSeek-R1 蒸餾得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基準測試中均顯著優于 DeepSeek-R1-Zero-Qwen-32B
因此,我們可以得出以下兩個結論:

  • 蒸餾的優勢將更強大的模型能力蒸餾到小型模型中能夠取得優異的結果,而小型模型僅依靠本文提到的大規模強化學習,需要巨大的計算資源,并且可能無法達到蒸餾的效果。
  • 超越的挑戰:盡管蒸餾策略既經濟又高效,但要突破智能的邊界,可能仍需要更強大的基礎模型和更大規模的強化學習

簡而言之:小模型+蒸餾(使用DeepSeek-R1生成的數據)> 小模型 + 大規模強化學習訓練的效果

6、評估

6.1 DeepSeek-R1 評估

表 4 展示了 DeepSeek-R1 與其他代表性模型在多個基準測試上的對比結果。在教育導向的知識基準測試(如 MMLU、MMLU-Pro 和 GPQA Diamond)中,DeepSeek-R1 相較于 DeepSeek-V3 展現出更優的性能。這一改進主要歸因于在 STEM 相關問題上的準確率提升,而這些提升得益于大規模強化學習的應用。此外,DeepSeek-R1 在 FRAMES(一個依賴長文本上下文的問答任務)上表現出色,展現了其強大的文檔分析能力。這突顯了推理模型在 AI 驅動的搜索和數據分析任務中的潛力。在事實基準測試 SimpleQA 上,DeepSeek-R1 優于 DeepSeek-V3,顯示出其處理基于事實查詢的能力。在這一基準測試中,OpenAI-o1 同樣超越了 GPT-4o。

然而,在中文 SimpleQA 基準測試中,DeepSeek-R1 的表現不如 DeepSeek-V3,主要原因在于經過安全性強化學習后,DeepSeek-R1 傾向于拒絕回答某些查詢。在不進行安全性強化學習的情況下,DeepSeek-R1 的準確率可以超過 70%。
在這里插入圖片描述
在 IF-Eval(一個用于評估模型遵循格式指令能力的基準測試)上,DeepSeek-R1 也取得了顯著的成果。這些改進與在最終階段的有監督微調(SFT)強化學習訓練中引入的指令遵循數據密切相關。此外,在 AlpacaEval 2.0 和 ArenaHard 上,DeepSeek-R1 的表現尤為突出,表明其在寫作任務和開放域問答中的優勢。其顯著優于 DeepSeek-V3 的表現進一步證明了大規模強化學習的泛化優勢,這不僅提升了推理能力,還改善了模型在多樣化領域的表現。此外,DeepSeek-R1 生成的總結長度較為簡潔,在 ArenaHard 上平均為 689 個標記,在 AlpacaEval 2.0 上為 2218 個字符。這表明 DeepSeek-R1 在基于 GPT 的評估中避免了引入長度偏差,進一步鞏固了其在多任務中的穩健性。

在數學任務上,DeepSeek-R1 的表現與 OpenAI-o1-1217 相當,在多數基準測試中大幅領先于其他模型。在編程算法任務(如 LiveCodeBench 和 Codeforces)上,以推理為導向的模型主導了這些基準測試。在工程導向的編程任務上,OpenAI-o1-1217 在 Aider 上的表現優于 DeepSeek-R1,但在 SWE Verified 上表現相當。我們相信,隨著相關強化學習訓練數據量的增加,DeepSeek-R1 在工程任務上的表現將在下一個版本中得到提升,因為目前這一領域的數據量仍然非常有限。

6.2 蒸餾模型評估

如 表 5 所示,僅通過對 DeepSeek-R1 的輸出進行蒸餾,高效的小型模型 DeepSeek-R1-7B(即 DeepSeek-R1-Distill-Qwen-7B,以下簡寫為類似形式)在各項指標上均優于不具推理能力的模型,例如 GPT-4o-0513。DeepSeek-R1-14B 在所有評估指標上均超越了 QwQ-32B-Preview,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多數基準測試中顯著優于 o1-mini。這些結果表明了蒸餾方法的強大潛力。此外,我們發現對這些蒸餾模型應用強化學習(RL)可以帶來顯著的進一步提升。我們相信這一方向值得進一步探索,因此在此僅展示了簡單通過有監督微調(SFT)蒸餾的模型結果。
在這里插入圖片描述

7、結論

在本研究中,我們分享了通過強化學習提升模型推理能力的探索過程。DeepSeek-R1-Zero 代表了一種純粹的強化學習方法,不依賴于冷啟動數據,卻在各項任務中展現出強大的性能。而 DeepSeek-R1 更為強大,它借助冷啟動數據以及迭代式的強化學習微調,最終在一系列任務上的表現與 OpenAI-o1-1217 相當。

我們進一步探索了將推理能力蒸餾到小型密集模型的可能性。我們以 DeepSeek-R1 作為教師模型,生成了 800K 條訓練樣本,并用于微調多個小型密集模型。結果令人鼓舞:例如,DeepSeek-R1-Distill-Qwen-1.5B 在數學基準測試 AIME 上達到了 28.9% 的準確率,在 MATH-500 上達到了 83.9% 的準確率,顯著優于基于相同底層模型微調的其他指令模型。其他密集模型也在各項基準測試中取得了令人印象深刻的成績,大幅超越了其他指令微調模型。

8、局限性與未來方向

在未來的研究中,計劃在以下方向上投入更多精力:

  • 通用能力提升:目前,DeepSeek-R1 在某些任務上的表現仍不如 DeepSeek-V3,例如函數調用、多輪對話、復雜角色扮演和 JSON 輸出。未來,我們將探索如何利用長鏈式思考(CoT)來增強這些領域的表現。
  • 語言混用問題:DeepSeek-R1 當前主要針對中文和英文進行了優化,這可能導致在處理其他語言的查詢時出現語言混用問題。例如,即使查詢語言不是中文或英文,DeepSeek-R1 也可能使用英文進行推理和回答。我們計劃在未來版本中解決這一局限性。
  • 提示工程:在評估 DeepSeek-R1 時,我們發現模型對提示非常敏感,少樣本提示往往會降低其性能。因此,我們建議用戶直接描述問題,并在零樣本設置中指定輸出格式,以獲得最佳結果。
  • 軟件工程任務:由于長時評估會影響強化學習的效率,大規模強化學習尚未廣泛應用于軟件工程任務。因此,DeepSeek-R1 在軟件工程基準測試上的表現尚未顯著優于 DeepSeek-V3。未來版本將通過在軟件工程數據上實施拒絕采樣,或在強化學習過程中引入異步評估來提高效率,從而解決這一問題。

因本人水平有限,歡迎大家評論區批評指正!一起交流學習!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/70188.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/70188.shtml
英文地址,請注明出處:http://en.pswp.cn/web/70188.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

車載音頻配置(二)

目錄 OEM 自定義的車載音頻上下文 動態音頻區配置 向前兼容性 Android 14 車載音頻配置 在 Android 14 中,AAOS 引入了 OEM 插件服務,使你可以更主動地管理由車載音頻服務監督的音頻行為。 隨著新的插件服務的引入,車載音頻配置文件中添加了以下更改: ? OEM 自定義的車…

禁止WPS強制打開PDF文件

原文網址&#xff1a;禁止WPS強制打開PDF文件_IT利刃出鞘的博客-CSDN博客 簡介 本文介紹如何避免WPS強制打開PDF文件。 方法 1.刪除注冊表里.pdf的WPS綁定 WinR&#xff0c;輸入&#xff1a;regedit&#xff0c;回車。找到&#xff1a;HKEY_CLASSES_ROOT\.pdf刪除KWPS.PDF…

深入解析NoSQL數據庫:從文檔存儲到圖數據庫的全場景實踐

title: 深入解析NoSQL數據庫:從文檔存儲到圖數據庫的全場景實踐 date: 2025/2/19 updated: 2025/2/19 author: cmdragon excerpt: 通過電商、社交網絡、物聯網等12個行業場景,結合MongoDB聚合管道、Redis Stream實時處理、Cassandra SSTable存儲引擎、Neo4j路徑遍歷算法等42…

用 Biome 替代 ESLint 和 Prettier

簡介 ESLint 和 Prettier ESLint&#xff1a;代碼質量檢查工具&#xff0c;確保代碼風格一致與無錯誤 Prettier&#xff1a;代碼格式化工具&#xff0c;自動美化代碼布局 所以&#xff1a;ESLint Prettier 能自動美化代碼、自動檢查代碼錯誤的工具 Biome Biome&#xff1a;…

6.3 DBMS的功能和特征

文章目錄 DBMS的6大功能DBMS的3個特征DBMS的分類 DBMS的6大功能 DBMS包含數據定義&#xff0c;數據庫操作&#xff08;檢索、插入、修改、刪除&#xff09;&#xff0c;數據庫運行管理&#xff08;保證多用戶環境下正常運行&#xff09;&#xff0c;數據組織、存儲、管理&…

力扣hot100——找到字符串中的所有字母異位詞

給定兩個字符串 s 和 p&#xff0c;找到 s 中所有 p 的 異位詞 的子串&#xff0c;返回這些子串的起始索引。不考慮答案輸出的順序。 解法思路&#xff1a; 1. // 判斷字符相等&#xff0c;其實就是給定一個定長的窗口去滑動查找子串&#xff0c;為了便于判斷將p 與窗口中的子…

前端插件使用xlsx-populate,花樣配置excel內容,根據坐添加標替換excel內容,修改顏色,合并單元格...。

需求要求&#xff1a;業務人員有個非常復雜得excel表格&#xff0c;各種表頭等&#xff0c;但是模板是固定得。當然也可以實現在excel上搞出各種表格&#xff0c;但是不如直接用已有模板替換其中要動態得內容方便&#xff0c;這里我們用到CSDN得 xlsx-populate 插件。 實列中我…

未來AI方向落地場景:小語言模型,super_private_agent

未來AI方向落地場景:小語言模型,super_private_agent 目錄 未來AI方向落地場景:小語言模型,super_private_agent小語言模型super - private - agent(注重隱私的智能代理)碳基生命和硅基生命交互界面面向agent的專用交互協議和數據接口從web平臺經濟到網絡平臺舉例說明社交…

Coze扣子新功能詳解

今晚(2025-01-24)扣子再次進行更新 主要更新內容&#xff1a; 搭建小程序和 H5 用戶界面時&#xff0c;支持使用音頻組件播放音頻內容 數據庫操作體驗提升 界面優化&#xff1a;對數據庫詳情界面進行了重新設計&#xff0c;并將工作流運行數據庫的測試數據位置從原工作流底…

匯能感知的光譜相機/模塊產品有哪些?

CM020A 分辨率&#xff1a;1600H1200V 光譜范圍&#xff1a;350~950nm 光譜分辨率&#xff1a;1nm 接口&#xff1a;USB2.0 幀率&#xff1a;16001200 (6幀) 輸出格式&#xff1a;Raw 8bit FOV&#xff1a;D73.5H58.8V44.1 相機尺寸&#xff1a;505055mm VM02S10 分辨率…

Ollama 本地GUI客戶端:為DeepSeek用戶量身定制的智能模型管理與交互工具

Ollama 本地GUI客戶端&#xff1a;為DeepSeek用戶量身定制的智能模型管理與交互工具 相關資源文件已經打包成EXE文件&#xff0c;可雙擊直接運行程序&#xff0c;且文章末尾已附上相關源碼&#xff0c;以供大家學習交流&#xff0c;博主主頁還有更多Python相關程序案例&#xf…

OpenMv識別色塊通過串口發給STM32

硬件連接 1、Openmv端 這里OpenMV端僅作為數據的發送端,所以只需要共地,以及OpenMV的TX(P4)與開發板的RX端連接即可。 2、STM32端 將開發板連接STM芯片RX端與轉串口TX端的跳帽取下,再將OpenMV的TX端(P4)與STM的RX連接。如果使用USB轉TTL則將TTL的RX端與STM的TX端連接…

以太網交換基礎(涵蓋二層轉發原理和MAC表的學習)

在當今的網絡世界中&#xff0c;以太網交換技術是局域網&#xff08;LAN&#xff09;的核心組成部分。無論是企業網絡、學校網絡還是家庭網絡&#xff0c;以太網交換機都扮演著至關重要的角色。本文將詳細介紹以太網交換的基礎知識&#xff0c;包括以太網協議、幀格式、MAC地址…

菜鳥之路Day15一一IO流(一)

菜鳥之路Day15一一IO流&#xff08;一&#xff09; 作者&#xff1a;blue 時間&#xff1a;2025.2.8 文章目錄 菜鳥之路Day15一一IO流&#xff08;一&#xff09;0.概述1.初識IO流1.1.什么是IO流&#xff1f;1.2.IO流的作用1.3.IO流的分類 2.IO流的體系結構3.字節輸出流的基本…

汽車零部件開發應該具備哪些編程思維?

目錄 1、功能安全思維 2、實時性與確定性思維 3、可靠性和冗余思維 4、硬件軟件協同思維 5、CAN總線通信思維 6、故障診斷和自診斷思維 7、功耗優化思維 8、軟件更新和版本管理思維 9、用戶體驗與安全性思維 汽車零部件開發中&#xff0c;嵌入式軟件在車輛系統中的作用…

idea拉取合并后的分支

文章目錄 遠程拉取代碼.更新本地庫拉取后本地庫就有了合并后的代碼 遠程拉取代碼.更新本地庫 拉取后本地庫就有了合并后的代碼

1-18 GIT設置公鑰

1-1 GIT如何設置公鑰 1.0 注冊賬號 這個應該都是會的&#xff0c;就不做介紹了 2.0 設置公鑰 PWD的作用是查看文件的路徑 ssh-keygen -t ed25519 -C "Gitee SSH Key" 讀取公鑰文件&#xff1a; cat ~/.ssh/id_ed25519.pub 3.0 測試 查看綁定的用戶名和郵箱&#xff1…

【MySQL】 常見數據類型

MySQL常見數據類型 1.整數類型2.浮點數類型3.定點數類型4.bit類型5.字符串類型 5.1char和varchar類型5.2日期類型和時間類型5.3enum和set類型 1.整數類型 整數類型默認都是有符號整數 類型名稱 字節數 類型說明 tinyint 1 帶符號的范圍-128127&#xff0c;無符號范圍…

DeepSeek 部署中的常見問題及解決方案

DeepSeek 作為一款智能語義搜索框架&#xff0c;其本地化部署在實際操作中可能因環境配置、權限管理、硬件資源等因素遇到多種問題。本文結合當前市面上的實踐經驗&#xff0c;整合了部署中的常見問題及解決方案&#xff0c;幫助用戶高效排查和優化部署流程。 一、權限不足問題…

《機器學習數學基礎》補充資料:求解線性方程組的克拉默法則

《機器學習數學基礎》中并沒有將解線性方程組作為重點&#xff0c;只是在第2章2.4.2節做了比較完整的概述。這是因為&#xff0c;如果用程序求解線性方程組&#xff0c;相對于高等數學教材中強調的手工求解&#xff0c;要簡單得多了。 本文是關于線性方程組的拓展&#xff0c;供…