DeepSeek-R1 論文解讀:強化學習如何 “煉” 出超強推理模型?

深度解析DeepSeek-R1:強化學習驅動大語言模型推理能力新突破

論文鏈接:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

在這里插入圖片描述

在大語言模型(LLMs)飛速發展的當下,提升模型推理能力成為邁向通用人工智能(AGI)的關鍵一環。近期,DeepSeek-AI發布的“DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”一文,介紹了通過強化學習提升模型推理能力的創新成果——DeepSeek-R1-Zero和DeepSeek-R1,為該領域研究開辟了新路徑。

Abstract

介紹了DeepSeek-R1-Zero和DeepSeek-R1這兩款推理模型,涵蓋模型訓練方式、特點、性能表現以及開源情況,具體如下:

  1. 模型介紹:首次提出第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。其中,DeepSeek-R1-Zero是基于大規模強化學習(RL)訓練而成,且未經過監督微調(SFT)的初步步驟。在RL訓練過程中,它展現出了強大且有趣的推理行為,不過也面臨可讀性差、語言混合等問題。為解決這些問題并進一步提升推理性能,團隊開發了DeepSeek-R1,該模型采用了多階段訓練,并在RL之前引入冷啟動數據。
  2. 性能表現:DeepSeek-R1在推理任務上的表現可與OpenAI-o1-1217相媲美。這意味著在處理各類推理問題時,DeepSeek-R1達到了與OpenAI先進模型相近的水平,展現出其在推理能力方面的卓越性。
  3. 開源貢獻:為推動研究社區的發展,團隊開源了DeepSeek-R1-Zero、DeepSeek-R1,以及基于Qwen和Llama從DeepSeek-R1中提煉出的六個密集模型(參數規模分別為1.5B、7B、8B、14B、32B、70B )。開源這些模型,有助于其他研究人員基于此進行更深入的研究和開發,促進整個大語言模型領域的發展。
    在這里插入圖片描述

1. Introduction

主要介紹了研究背景、目標、主要方法及貢獻,為理解后續研究內容奠定基礎。具體如下:

  1. 研究背景:近年來,大語言模型(LLMs)發展迅速,逐漸縮小與通用人工智能(AGI)的差距。后訓練成為訓練流程的重要部分,它能提升推理任務的準確性、使模型符合社會價值觀并適應用戶偏好,且與預訓練相比所需計算資源較少。在推理能力提升方面,OpenAI的o1系列模型引入推理時擴展思維鏈的方法,在數學、編程和科學推理等任務上取得顯著進步,但有效測試時擴展仍是研究難題。此前的研究方法,如基于過程的獎勵模型、強化學習、蒙特卡羅樹搜索和束搜索等,都未能達到o1系列模型的通用推理性能。
  2. 研究目標與方法:本文旨在通過純強化學習(RL)提升語言模型的推理能力,探索大語言模型在無監督數據情況下,通過純RL過程自我進化發展推理能力的潛力。研究以DeepSeek-V3-Base為基礎模型,采用GRPO(Group Relative Policy Optimization)作為RL框架來提高模型在推理任務中的性能。在訓練過程中,DeepSeek-R1-Zero自然地展現出許多強大且有趣的推理行為,在推理基準測試中表現出色,例如在AIME 2024基準測試中,pass@1分數大幅提升。不過,DeepSeek-R1-Zero存在可讀性差和語言混合等問題。因此,研究引入DeepSeek-R1,通過收集少量冷啟動數據對基礎模型進行微調,并采用多階段訓練流程,最終獲得了與OpenAI-o1-1217性能相當的模型。
  3. 研究貢獻:一是在基礎模型上進行大規模強化學習的后訓練,直接將RL應用于基礎模型,開發出DeepSeek-R1-Zero,證明了僅通過RL無需監督微調就能激發大語言模型的推理能力,為該領域研究開辟新方向。同時,介紹了DeepSeek-R1的開發流程,包括兩個RL階段和兩個SFT階段,有望推動行業發展。二是通過蒸餾將大模型的推理模式融入小模型,使小模型性能提升。開源了DeepSeek-R1及其API,以及多個蒸餾后的小模型,為研究社區提供了有價值的資源,有助于后續開發性能更優的小模型。
  4. 評估結果總結:在推理任務上,DeepSeek-R1在AIME 2024和MATH-500等測試中表現優異,與OpenAI-o1-1217相當甚至超越。在編碼相關任務中達到專家水平;在知識基準測試如MMLU、GPQA Diamond等中,DeepSeek-R1成績突出,雖然略遜于OpenAI-o1-1217,但優于其他閉源模型。此外,在創意寫作、問答、編輯和總結等多種任務中,DeepSeek-R1也表現出色,在長上下文理解任務中大幅超越DeepSeek-V3。

2. Approach

主要闡述了提升模型推理能力的研究方法,涵蓋總體思路、DeepSeek - R1 - Zero和DeepSeek - R1的構建以及知識蒸餾的應用,具體如下:

  1. 總體思路:傳統方法多依賴大量監督數據提升模型性能,本研究表明大規模強化學習(RL)可顯著提升推理能力,即便不依賴監督微調(SFT)作為冷啟動。加入少量冷啟動數據,性能還能進一步增強。接下來分別介紹了直接在基礎模型上應用RL的DeepSeek - R1 - Zero,從冷啟動數據微調后進行RL的DeepSeek - R1,以及將DeepSeek - R1推理能力蒸餾到小型密集模型的方法。
  2. DeepSeek - R1 - Zero:基礎模型上的強化學習
    • 強化學習算法:采用Group Relative Policy Optimization(GRPO)算法,該算法放棄了與策略模型通常同樣大小的批評模型,通過組分數估計基線。優化策略模型時,綜合考慮優勢、策略比率和KL散度,在節省訓練成本的同時引導模型學習。

    • 獎勵建模:采用基于規則的獎勵系統,包括準確性獎勵(評估響應是否正確,如數學題按指定格式給出最終答案,或用編譯器評估LeetCode問題)和格式獎勵(要求模型將思考過程放在特定標簽內)。未使用神經獎勵模型,以避免獎勵作弊和簡化訓練流程。

    • 訓練模板:設計簡單模板,要求模型先進行推理過程,再給出最終答案,避免對內容的特定限制,使模型在RL過程中自然發展推理能力。
      在這里插入圖片描述

    • 性能、自我進化過程和頓悟時刻:DeepSeek - R1 - Zero在AIME 2024基準測試中表現出色,隨著RL訓練推進,pass@1分數大幅提升,甚至超過OpenAI - o1 - 0912。

      • 圖 2 展示了 DeepSeek-R1-Zero 在 AIME 2024 基準測試中,整個強化學習訓練過程中的性能變化軌跡。如圖所示,隨著強化學習訓練的推進,DeepSeek-R1-Zero 的性能穩步提升。值得注意的是,AIME 2024 上的平均單次通過率(pass@1)得分顯著提高,從最初的 15.6% 躍升至令人矚目的 71.0%,達到了與 OpenAI-o1-0912 相當的性能水平。
        在這里插入圖片描述
        • 表 2 對 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各種推理相關基準測試中進行了對比分析在這里插入圖片描述
        • Figure 3 對應的圖片展示的是 DeepSeek - R1 - Zero 在強化學習(RL)訓練過程中,訓練集上平均響應長度的變化情況。從圖中可以直觀看到隨著訓練步數的推進,其平均響應長度的變化趨勢。該變化趨勢反映出 DeepSeek - R1 - Zero 在訓練過程中,自然地學會了花費更多思考時間來解決推理任務,具體表現為響應長度不斷增加,意味著模型在推理時會生成更多的推理內容,這是其推理能力自我進化的一種體現 。在這里插入圖片描述

3. Experiment

主要介紹了模型實驗的相關內容,涵蓋實驗設置、DeepSeek - R1評估和蒸餾模型評估,具體如下:

  1. 實驗設置

    • 基準測試:選用了多個不同領域的基準測試來評估模型性能,包括知識問答相關的MMLU、MMLU - Redux、MMLU - Pro等,編碼相關的LiveCodeBench、Codeforces,數學相關的AIME 2024、MATH - 500等,還有開放式生成任務評估的AlpacaEval 2.0和Arena - Hard等。通過多樣化的基準測試,全面考察模型在不同任務和領域中的表現。
    • 評估提示:針對不同基準測試的特點,采用不同的提示設置。如對于MMLU、DROP等標準基準測試,使用simpleevals框架中的提示;MMLU - Redux采用Zero - Eval提示格式進行零樣本設置;MMLU - Pro、C - Eval等原本是少樣本提示的數據集,為適應DeepSeek - R1的特點,將其修改為零樣本設置,避免思維鏈(CoT)在少樣本情況下對模型性能產生負面影響。其他數據集則遵循其原始評估協議和默認提示。
    • 基線模型:選擇了多個強大的模型作為基線進行對比,包括DeepSeek - V3、Claude - Sonnet - 3.5 - 1022、GPT - 4o - 0513、OpenAI - o1 - mini和OpenAI - o1 - 1217等。對于蒸餾模型的評估,還加入了開源模型QwQ - 32B - Preview進行對比,以此來清晰地評估DeepSeek - R1及其蒸餾模型的性能水平。
    • 評估方法:為避免貪心解碼在評估長輸出推理模型時出現高重復率和結果不穩定的問題,采用pass@k評估方法。以0.6的采樣溫度和0.95的top - P值生成多個響應(k值根據測試集大小在4 - 64之間),計算pass@1指標(pass@1 = 1/k ∑ pi,pi表示第i個響應的正確性)。對于AIME 2024,還額外報告cons@64(64個樣本的多數投票)結果,使評估結果更可靠。
  2. DeepSeek - R1評估:將DeepSeek - R1與多個基線模型在多個基準測試上進行對比。在教育知識類基準測試(如MMLU、MMLU - Pro、GPQA Diamond)中,DeepSeek - R1表現優于DeepSeek - V3,主要得益于在STEM相關問題上通過大規模強化學習提升的準確性。在FRAMES長文本問答任務中,DeepSeek - R1展現出強大的文檔分析能力;在SimpleQA事實性基準測試中,DeepSeek - R1也超過了DeepSeek - V3,但在中文SimpleQA基準測試中,由于安全RL的影響,對某些查詢拒絕回答,導致性能不如DeepSeek - V3。在IF - Eval格式指令遵循評估、AlpacaEval2.0寫作任務和ArenaHard開放域問答任務中,DeepSeek - R1成績優異,生成的總結長度簡潔,避免了長度偏差,體現出良好的多任務適應性。在數學任務上,DeepSeek - R1與OpenAI - o1 - 1217表現相當,大幅超越其他模型;在LiveCodeBench和Codeforces等編程算法任務中表現出色,但在工程導向的編程任務上,因相關強化學習訓練數據有限,與OpenAI - o1 - 1217仍有差距。在這里插入圖片描述

  3. 蒸餾模型評估:對基于DeepSeek - R1蒸餾得到的小模型進行評估,結果顯示這些蒸餾模型表現出色。例如,DeepSeek - R1 - Distill - Qwen - 7B在AIME 2024上超越GPT - 4o - 0513;DeepSeek - R1 - 14B在各項評估指標上優于QwQ - 32B - Preview;DeepSeek - R1 - 32B和DeepSeek - R1 - 70B在多數基準測試中大幅超越o1 - mini。這充分證明了蒸餾技術能有效提升小模型的推理能力,即使僅進行簡單的監督微調(SFT),也能取得顯著成果。
    在這里插入圖片描述

  4. DeepSeek - R1:冷啟動的強化學習

    • 冷啟動:與DeepSeek - R1 - Zero不同,DeepSeek - R1構建并收集少量長思維鏈(CoT)數據對DeepSeek - V3 - Base模型進行微調,作為RL的初始階段。這些冷啟動數據格式更具可讀性,包含推理過程總結,基于人類先驗知識設計模式,相比DeepSeek - R1 - Zero表現更優。
    • 推理導向的強化學習:在冷啟動微調后的模型上,采用與DeepSeek - R1 - Zero相同的大規模RL訓練過程。針對語言混合問題,引入語言一致性獎勵,將推理任務準確性和語言一致性獎勵結合,優化模型表現,使其更符合人類偏好。
    • 拒絕采樣和監督微調:推理導向的RL收斂后,利用模型檢查點收集監督微調(SFT)數據。推理數據通過拒絕采樣生成,擴大數據集并納入生成式獎勵模型評估的數據,同時過濾掉混亂和不可讀的輸出。非推理數據復用DeepSeek - V3的部分SFT數據集,涵蓋寫作、事實問答等領域。用約800k樣本對模型進行兩個epoch的微調。
    • 全場景強化學習:為使模型更符合人類偏好,進行二次RL。推理數據采用基于規則的獎勵,通用數據使用獎勵模型捕捉人類偏好。分別從最終總結和整個響應評估模型的有用性和無害性,確保模型在推理能力提升的同時,更安全、更實用。
  5. 蒸餾:賦予小模型推理能力:為讓小型模型具備類似DeepSeek - R1的推理能力,使用DeepSeek - R1生成的800k樣本,對Qwen和Llama等開源模型進行直接微調。實驗表明,這種蒸餾方法顯著提升了小模型的推理能力。研究僅對蒸餾模型進行SFT,未納入RL階段,為后續研究留下探索空間。

4. Discussion

主要對研究過程中的關鍵問題進行了探討,涵蓋蒸餾與強化學習的比較,以及一些未成功嘗試的方法,為研究成果的理解和后續研究方向提供了參考。具體如下:

  1. 蒸餾與強化學習對比
    • 實驗對比:通過實驗對比蒸餾和強化學習對模型性能的影響。在實驗中,對Qwen - 32B - Base進行大規模強化學習訓練,得到DeepSeek - R1 - Zero - Qwen - 32B。將其與從DeepSeek - R1蒸餾得到的DeepSeek - R1 - Distill - Qwen - 32B,以及開源模型QwQ - 32B - Preview進行對比。在這里插入圖片描述

    • 結果分析:實驗結果表明,經過大規模強化學習訓練的Qwen - 32B - Base性能與QwQ - 32B - Preview相當,但DeepSeek - R1 - Distill - Qwen - 32B在所有基準測試中表現顯著更優。由此得出兩個結論:一是將強大模型的知識蒸餾到小模型中效果顯著,小模型僅依靠大規模強化學習不僅計算成本巨大,還可能無法達到蒸餾模型的性能;二是蒸餾策略經濟高效,但要進一步提升模型智能,仍需更強大的基礎模型和大規模強化學習的支持。

  2. 未成功嘗試的方法
    • 過程獎勵模型(PRM):PRM旨在引導模型找到更好的推理方法,但在實踐中存在局限性。首先,難以在一般推理中明確界定細粒度的推理步驟;其次,判斷當前中間步驟的正確性困難,自動化標注效果不佳,手動標注又不利于大規模應用;最后,引入基于模型的PRM會導致獎勵作弊問題,重新訓練獎勵模型不僅需要額外資源,還會使訓練流程復雜化。雖然PRM在對模型生成的前N個響應進行重排序或輔助引導搜索方面有一定作用,但在大規模強化學習過程中,其優勢不敵引入的額外計算成本。
    • 蒙特卡羅樹搜索(MCTS):受AlphaGo和AlphaZero啟發,嘗試使用MCTS提升測試時計算的可擴展性。該方法將答案分解為小部分,讓模型系統地探索解空間,通過提示模型生成對應推理步驟的標簽來輔助搜索。訓練時,先利用收集的提示和預訓練的值模型通過MCTS找到答案,再用生成的問答對訓練演員模型和值模型。然而,在大規模訓練中遇到挑戰,與國際象棋相比,token生成的搜索空間呈指數級增長,設置節點擴展限制雖能緩解但會導致模型陷入局部最優;同時,值模型對生成質量影響大,訓練精細的值模型難度高,使得模型難以通過自我搜索迭代提升性能。雖然MCTS結合預訓練值模型在推理時能提升性能,但通過自我搜索持續提升模型性能仍面臨較大困難。

5. Conclusion, Limitations, and Future Work

明確指出了當前研究的成果、模型存在的局限,并規劃了未來的研究方向,具體如下:

  1. 研究結論:研究通過強化學習成功提升了模型的推理能力。DeepSeek-R1-Zero代表了一種不依賴冷啟動數據的純RL方法,在各種任務中展現出強大的性能。而DeepSeek-R1則借助冷啟動數據和迭代RL微調,性能更加強大,在一系列任務上達到了與OpenAI-o1-1217相當的水平。此外,研究還探索了將推理能力蒸餾到小型密集模型的方法,使用DeepSeek-R1生成的800K訓練樣本對多個小模型進行微調,取得了令人矚目的成果,如DeepSeek-R1-Distill-Qwen-1.5B在數學基準測試中超越了GPT-4o和Claude-3.5-Sonnet等模型。
  2. 模型局限性
    • 通用能力短板:在功能調用、多輪交互、復雜角色扮演以及JSON輸出等任務方面,DeepSeek-R1的表現不及DeepSeek-V3。這意味著在處理需要復雜交互和特定格式輸出的場景時,DeepSeek-R1還有較大的提升空間。
    • 語言混合問題:目前DeepSeek-R1主要針對中文和英文進行了優化,在處理其他語言的查詢時,容易出現語言混合的情況。即使輸入的是其他語言的問題,模型可能仍會使用英語進行推理和回答,這限制了其在多語言環境下的應用。
    • 提示工程敏感:模型對提示非常敏感,采用少樣本提示時,其性能會出現明顯下降。這表明在實際應用中,用戶需要謹慎選擇提示方式,以確保模型能夠發揮出最佳性能。
    • 軟件工程任務表現欠佳:由于軟件工程任務的評估時間較長,這對強化學習過程的效率產生了較大影響,導致大規模強化學習在該領域的應用受限。因此,DeepSeek-R1在軟件工程基準測試中的表現,相較于DeepSeek-V3并沒有顯著的提升。
  3. 未來研究方向
    • 通用能力提升:計劃深入探索如何利用長思維鏈(CoT)數據,來增強DeepSeek-R1在功能調用、多輪對話、復雜角色扮演和JSON輸出等任務上的表現,從而提升其通用能力。
    • 解決語言混合問題:未來的更新將著重解決語言混合的問題,優化模型對多種語言的處理能力,確保模型在面對不同語言的查詢時,能夠正確地進行推理和回答,提高模型的多語言適應性。
    • 優化提示工程:鑒于模型對提示的敏感性,后續研究將聚焦于提示工程,尋找更有效的提示策略,減少提示對模型性能的負面影響,提高模型的穩定性和可靠性。
    • 改進軟件工程任務性能:為了提升DeepSeek-R1在軟件工程任務中的表現,未來版本將采取在軟件工程數據上進行拒絕采樣,或在強化學習過程中引入異步評估等方法,以提高強化學習的效率,進而提升模型在相關任務上的性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/68043.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/68043.shtml
英文地址,請注明出處:http://en.pswp.cn/web/68043.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【數據結構】循環鏈表

循環鏈表 單鏈表局限性單向循環鏈表判斷鏈表是否有環思路code 找到鏈表入口思路代碼結構與邏輯 code 單鏈表局限性 單鏈表作為一種基本的數據結構,雖然在很多場景下都非常有用,但它也存在一些局限性: 單向訪問:由于每個節點僅包含…

ip屬地是手機號還是手機位置?一文理清

在數字化和網絡化的今天,IP屬地這一概念逐漸成為了人們關注的焦點。特別是在社交媒體和在線平臺上,IP屬地的顯示往往讓人聯想到用戶的地理位置。然而,關于IP屬地到底與手機號還是手機位置有關,卻存在著不少誤解和混淆。本文將深入…

【嵌入】基于nomic-embed-text-v1.5和HuggingFaceEmbeddings實現

測試代碼 model_name = /media/zhangbin/DATA/DataCache/nomic-ai/nomic-embed-text-v1.5import osos.environ[HF_HOME] = /media/zhangbin/DATA/DataCache/#os.environ["TRANSFORMERS_CACHE"] = "/media/zhangbin/DATA/DataCache/" # 確保目錄結構正確 if…

離散時間傅里葉變換(DTFT)公式詳解:周期性與連續性剖析

摘要 離散時間傅里葉變換(DTFT)是數字信號處理領域的重要工具,它能將離散時間信號從時域轉換到頻域,揭示信號的頻率特性。本文將深入解讀DTFT公式,詳細闡述其具有周期性和連續性的原因,幫助讀者全面理解DT…

哈希表與散列表的原理及C++實現

1. 什么是哈希表? 哈希表(Hash Table)是一種高效的數據結構,用于存儲鍵值對(Key-Value Pairs)。它通過哈希函數(Hash Function)將鍵(Key)映射到一個固定大小…

圖像分類與目標檢測算法

在計算機視覺領域,圖像分類與目標檢測是兩項至關重要的技術。它們通過對圖像進行深入解析和理解,為各種應用場景提供了強大的支持。本文將詳細介紹這兩項技術的算法原理、技術進展以及當前的落地應用。 一、圖像分類算法 圖像分類是指將輸入的圖像劃分為…

前端框架中 HTML 的應用技巧:React、Vue、Angular 深度解析

系列文章目錄 01-從零開始學 HTML:構建網頁的基本框架與技巧 02-HTML常見文本標簽解析:從基礎到進階的全面指南 03-HTML從入門到精通:鏈接與圖像標簽全解析 04-HTML 列表標簽全解析:無序與有序列表的深度應用 05-HTML表格標簽全面…

Vue - customRef 自定義ref

customRef 作用:創建一個自定義的 ref , 并對其依賴項跟蹤和更新觸發進行邏輯控制。 在原生 ref 的基礎上,添加自己的邏輯等... 在 Vue 3 中,customRef 是一個用于創建自定義響應式引用的 API。它允許開發者控制和優化響應式引用的行為&…

數字化轉型:概念性名詞淺談(第四講)

?大家好,本篇文章是在新年之際寫的,所以在這里先給大家拜個年。 今天要介紹的名詞為ETL: ETL,是英文Extract-Transform-Load的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transfor…

UE學習日志#22 C++筆記#8 基礎復習8 string和string_view2

1 std::string_view類 string_view基本上就是const string&的簡單替代品,但不會產生開銷。他不復制字符串。 string_view添加了remove_prefix(size_t)和remove_suffix(size_t)方法,前者將起始指針給定的偏移量來收縮字符串,后者則將結尾指…

UVM factory機制

目錄 1. factory-register 1.1 uvm_object_registry#(type T=uvm_object, string Tname="") 1.1 uvm_default_factory::register 2. factory-override 2.1 set_type_override(uvm_object_wrapper override_type) 2.2 set_inst_override(uvm_object_wrapper ove…

Spring MVC學習——發送請求(@RequestMapping注解及請求參數綁定)

前言 Spring MVC作為Spring框架中的核心組件之一,其強大的功能在于能簡潔高效地處理HTTP請求和響應。在開發Web應用時,理解和正確使用Spring MVC的注解,尤其是RequestMapping注解,至關重要。本文將詳細講解RequestMapping注解的使…

C# Action和 Func的用法

C#中的數據類型 函數數據類型 Action 是一個數據類型 但是是沒有返回值得函數數據類型 Func 用于指定一個有返回值的委托 internal class Program{static void Main(string[] args){TT.F1(NoVoid);TT.F2(Void1);Void2(() > { Console.WriteLine("Void2執行了");…

C++中的模板(上)

C中的模板(上) 模板參數和函數參數是很像的,函數參數定義的形參對象,而模板參數定義的是類型. 模板分為函數模板和類模板 函數模板 一個交換兩個數的函數模板: template<class T> // 此處typename和class是等價的 void Swap(T &a, T &b) {T temp a;a b;b …

MySQL面試題----如何進行 MySQL 數據庫備份與恢復

MySQL 數據庫備份 1. 使用 mysqldump 工具(邏輯備份) 全量數據庫備份 該方式會備份指定數據庫中的所有數據和表結構。在命令行中輸入以下命令,將 username 替換為你的 MySQL 用戶名,password 替換為對應的密碼,database_name 替換為要備份的數據庫名,backup.sql 為備份文…

Java集合面試總結(題目來源JavaGuide)

問題1&#xff1a;說說 List,Set,Map 三者的區別&#xff1f; 在 Java 中&#xff0c;List、Set 和 Map 是最常用的集合框架&#xff08;Collection Framework&#xff09;接口&#xff0c;它們的主要區別如下&#xff1a; 1. List&#xff08;列表&#xff09; 特點&#xf…

deepseek接入pycharm 進行AI編程

要將DeepSeek接入PyCharm進行AI編程,可以按照以下步驟操作: ### 1. 獲取DeepSeek API訪問權限 DeepSeek通常以API的形式對外提供服務,你需要在其官方網站注冊賬號,申請API訪問權限。在申請通過后,會獲得API密鑰(API Key),這是后續調用API的關鍵憑證。 ### 2. 安裝必要…

奧迪改名風波再起,A6L能否率隊創下新奇跡

文/王俁祺 導語&#xff1a;春節假期剛過&#xff0c;奧迪的車型命名規則又變了。在如今以內卷為主基調的環境下&#xff0c;車型改名可不是小事&#xff0c;而奧迪的這次調整背后藏著許多深意&#xff0c;也預示著2025年奧迪在產品布局上的新動向。 改名能否“改命” 回溯到…

【怎么用系列】短視頻戒除-1-對推薦算法進行干擾

如今推薦算法已經滲透到人們生活的方方面面&#xff0c;尤其是抖音等短視頻核心就是推薦算法。 【短視頻的危害】 1> 會讓人變笨&#xff0c;慢慢讓人喪失注意力與專注力 2> 讓人喪失閱讀長文的能力 3> 讓人沉浸在一個又一個快感與嗨點當中。當我們刷短視頻時&#x…

改進Transformer,解讀Tokenformer論文:基于參數分詞化重新思考Transformer的擴展策略

Transformer 訓練成本高昂的問題日益凸顯&#xff0c;不僅需要耗費巨額的資金與大量的計算資源&#xff0c;還對環境產生了不可忽視的影響&#xff0c;最近由北京大學與谷歌聯合發表的一篇論文&#xff0c;為這一棘手難題帶來了全新的曙光。論文中提出的創新方案&#xff0c;有…