導 讀INTRODUCTION
今天繼續哈爾濱工業大學車萬翔教授帶來了一場主題為“DeepSeek 技術前沿與應用”的報告。
本報告深入探討了大語言模型在自然語言處理(NLP)領域的核心地位及其發展歷程,從基礎概念出發,延伸至語言模型在機器翻譯、拼音輸入法、語音識別等任務中的關鍵作用。強調了語言模型不僅輔助其他NLP任務,本身也蘊含大量知識,如地理信息、語義理解和推理能力。隨著技術的發展,尤其是transformer模型的引入,預訓練模型時代開啟,GPT系列模型成為里程碑,GPT-3通過大規模參數和數據預訓練,展現強大的文本生成能力,盡管存在知識準確性問題。ChatGPT的出現通過無監督、有監督和強化學習的融合,顯著提高了模型性能和泛化能力,尤其在推理任務上取得突破。DeepSeek的RE模型通過極致的模型架構優化和開源精神,實現了高性價比、高性能的推理能力,接近甚至媲美頂尖模型,引起廣泛關注。
此外,討論了如何有效利用大模型的策略,包括清晰指令、提供豐富參考資料、分解復雜問題等,以及專業領域知識融合的方法,如檢索增強和微調。最后,展望了人工智能的未來方向,強調了語言模型作為AI基石的重要地位和持續的研究挑戰。
哈爾濱工業大學:《大模型原理 技術與應用-從GPT到DeepSeek》
網盤下載:https://pan.quark.cn/s/230cde4fd7c8
以下是部分內容預覽:
1.大語言模型原理、技術和應用介紹
介紹主要圍繞大語言模型的原理、技術和應用展開,重點討論從GPT到DeepSeek的發展過程。主講人陳萬祥來自計算學部人工智能學院,專注于社會計算與交互機器人研究中心的研究。他強調了語言作為交流工具和知識載體的重要性,并解釋了大語言模型如何通過分析和理解人類歷史上的文字,掌握和創造知識。
2.自然語言處理:人工智能的皇冠明珠
自然語言處理專注于人類語言的文本符號處理,涉及理解和生成兩個關鍵方面,被視為認知智能的一部分,是人工智能領域中尤為復雜且重要的部分。該領域的突破被視為推動人工智能更大進展的關鍵,因此自然語言處理被譽為人工智能皇冠上的明珠。隨著語言模型的發展,自然語言處理不僅在其自身領域取得了顯著進步,也促進了整個人工智能領域的快速發展。
3.自然語言處理的發展歷程及大模型技術
自然語言處理學科歷史悠久,自上世紀50年代計算機發明后,機器翻譯作為重要研究課題誕生,旨在解決美蘇冷戰時期的情報需求。盡管最初認為機器翻譯任務簡單,但歷經70年發展,至今仍未徹底解決,盡管現有技術已顯著提升。早期嘗試通過知識灌輸和淺層機器學習解決自然語言處理問題,效果有限。深度學習的出現,尤其是預訓練語言模型,為自然語言處理帶來了革命性進展,奠定了大模型技術的基礎。大模型,或大規模預訓練語言模型,已成為當前自然語言處理領域的核心技術。
4.預訓練語言模型及其在自然語言處理中的應用
預訓練語言模型,以GPT為代表,是一種通過大量文本數據進行訓練,以生成和理解自然語言的模型。它通過衡量一個句子在語言中出現的概率,為自然語言處理任務提供支持。預訓練語言模型不僅在機器翻譯、拼音輸入法和語音識別等任務中起到關鍵作用,還能通過預測下一個詞的概率來輔助理解和生成流暢的文本。
5.語言模型的重要性及GPT的創新點
語言模型在預測下一個詞的過程中蘊含大量知識,如地理信息、語義信息和推理能力。GPT通過使用transformer模型、預訓練和簡化下游任務模型的創新,有效提升了語言模型的性能,開啟了自然語言處理預訓練的時代。這些創新使得GPT能更準確地理解和生成語言,解決了傳統技術的不足,從而在多種自然語言處理任務中取得顯著成果。
6.預訓練模型在自然語言處理中的作用及發展
討論了預訓練模型在自然語言處理領域的應用和優勢,對比了預訓練和非預訓練模型處理數據的方法。通過類比教育過程,闡述了預訓練模型如何通過大量未標注數據學習通用任務,隨后在特定任務上進行精調以提高效果。特別提到了GPT系列模型的發展,從GPT1到GPT3,模型規模逐漸增大,至GPT3時參數量達到了1750億,強調了大模型在當前技術下的重要性。
7.大模型在學術界的發展與挑戰
在學術界,早在2020年之前就認識到大模型的重要性,特別是GP3模型因其巨大參數量帶來的預訓練和精調難題,促使研究者探索新范式。Open I提出的方法是讓下游任務適應模型,而非模型適應任務,這通過將任務轉化為語言模型預測上下文的任務來實現。例如,情感分類任務可以通過給定任務描述和示例讓模型識別文本情感。GP3模型展示了強大的文本生成能力,甚至能自動編寫代碼,引發了通用人工智能是否已到來的討論。然而,GP3也存在明顯不足,如知識不準確和推理能力缺失,導致其在某些任務上的表現不如其他特定工作。因此,后續研究致力于增強模型的魯棒性、解釋性和推理能力。
8.ChatGPT的關鍵技術及其突破
對話中詳細介紹了ChatGPT通過無監督學習和大規模預訓練語言模型實現顯著效果的關鍵技術。ChatGPT不僅模型規模大,預訓練數據量也巨大,這使其見過的知識更多,參數容量更大。此外,對話指出ChatGPT顛覆了僅預訓練的范式,通過將所有任務統一格式進行精調,使其不僅在已見過的任務上表現優異,還能泛化到從未見過的任務上,展現了強大的任務泛化能力。
9. ChatGPT關鍵技術及其引發的模型競爭
ChatGPT采用無監督學習、有監督學習和強化學習三項關鍵技術,其中強化學習特別通過人類反饋進行強化對齊,以使生成結果更符合人類期望并減少人工標注難度。這項技術的出現引起了學術界和工業界的廣泛關注,激發了眾多公司投入到相關領域,導致新模型層出不窮,形成了激烈的競爭態勢。
10.Deep Seek模型為何突然走紅
Deep Seek(DP sik)模型在一月底發布后迅速引起關注,尤其在國外,其在Nature雜志的報道中被描述為一款高性價比、完全開源的推理模型,性能可媲美頂級的OE模型。這些特點,尤其是其高性能和開源性,使得Deep Seek在眾多模型中脫穎而出。
11.DeepSeek的推理模型及其核心技術創新
深入探討了DeepSeek開發的推理模型及其發展歷程,強調了模型從V1到V3、R1 zero再到21的迭代更新。特別提及了GRPO技術,這是一種由DeepSeek在去年二月提出的強化學習方法,其顯著特點是無需駕駛網絡,降低了對機器性能的要求,提高了學習的穩定性和效率。該模型在復雜推理任務上表現優異,主要貢獻在于證明了通過強化學習即可獲得推理能力,無需人工標注數據,從而大幅降低了成本。此外,模型架構的極致優化使得訓練和推理速度大幅提升,降低了對算力的需求,拓寬了應用范圍。DeepSeek堅持開源精神,公開了模型和詳細的技術報告,這與某些競爭對手的封閉做法形成鮮明對比。推理被認為是人工智能發展的第六次范式變遷,DeepSeek的成功復現為這一技術路線的可行性提供了信心,激發了更多相關研究和實踐。
12.思維鏈和強化學習在推理能力中的應用
推理技術在解決問題時,模仿人類分步驟思考的過程,而不是一步到位。2022年提出的思維鏈范式,讓模型在輸出時不僅給出最終答案,還展示中間解題步驟,增強了模型的推理能力。早期模型如Deep sik RE和OE通過強化學習,使模型自動學習推理能力,而不是依賴模型大小的增加。RE zero模型通過自我博弈和強化學習,讓模型探索推理步驟,如果得出正確答案則給予獎勵,錯誤則懲罰,以此訓練模型的推理過程。這種技術不僅學習穩定性好,還能節省資源。
13.強化學習在自動推理過程中的顯著進展
通過強化學習的方法,模型在AIME(美國數學奧賽)題目的表現從39%顯著提升到了71%,接近預覽版的open IOE能力。隨著模型訓練步驟的增加,其推理能力持續增長,顯示了模型在算力充足的情況下探索更多路徑的可能性。特別的是,模型在學習過程中展現了自我反思的能力,即能夠識別錯誤的推理并進行修正,稱為aha moment。同時,推理步驟隨學習過程的增加而自然增長,但是否越多越好還需根據問題的復雜性決定。此外,為解決RE zero在推理步驟的可讀性問題,阿爾法zero(R one)在冷啟動階段引入少量示例以指導模型學習一種語言和規范的格式,經過四個步驟的改進,模型的推理格式和語言表達更加規范,其能力從71%提升到接近80%,幾乎與open I的正式版模型相當。
14.極致模型優化與開放的AI技術
討論了Dik在模型架構優化方面的重要工作,包括使用算法優化、深度混合專家模型(MOE)、多頭隱含注意力機制和多詞源預測等技術,提高了模型預測效率和學習效率。此外,還介紹了在模型訓練中的混合精度、并行訓練架構和跨節點高效通訊等底層創新,以及Dik將這些核心技術和模型參數全面開源,甚至包括底層文件系統的優化,展示了其在AI領域的開放和極致優化策略。
15.Deep Sick模型的優化策略及影響
Deep Sick模型通過集合多種優化策略,顯著降低了訓練成本至其他模型如LAMA的十分之一,同時提高了性能。這種成本效益使得在有限資源下也能充分利用現有計算能力。Deep Sick的發布對Meta的LAMA項目造成壓力,甚至影響了Meta的決策和人員調整。從GPT到Deep Sick的發展歷程中,技術路線保持一致,主要通過大規模語言模型預訓練并結合transformer架構,而Deep Sick在工程優化上達到了新的高度。
16.大模型應用及prompt設計原則
強調了有效使用大模型的關鍵原則,主要包括:確保指令清晰具體,使用分隔符提高識別準確性,提供示例以引導模型產生更佳結果,供給豐富參考資料以增強回答的準確性和深度,將復雜問題分解為步驟逐一解決,利用模型內置的外部工具如Python程序和搜索引擎提升問題解決能力,以及給予模型更多思考時間以獲得更佳結果。這些策略旨在優化與大模型的互動,提高其在各種任務中的表現。
17.大模型在專業領域應用的挑戰與策略
討論了在特定專業領域中應用大模型時遇到的挑戰和解決策略。首先提出通過優化prompt(即prompt工程)來充分利用模型的能力,即使模型可能未充分掌握某一領域的專業知識。如果單純的知識不足,建議使用檢索增強(RAG)技術,即通過檢索相關領域的知識庫來輔助模型生成更準確的答案。對于風格或格式上的問題,則可以通過微調模型來解決。此外,還介紹了智能體和多智能體技術在解決問題和科學研究中的應用,以及在實際應用中需考慮的模型小型化、個性化、安全性和隱私性等問題。最后,提到了實驗室在大模型訓練、增強及應用領域的工作,包括發布的開源對話模型“活字”。
18.大模型技術在代碼生成與智能醫療等領域的應用
討論聚焦于利用大模型技術在多個領域的創新應用,包括代碼自動生成、智能醫療、以及機器人控制。首先,介紹了一種名為“珠算”的代碼大模型,該模型具備輕量化、高效且功能強大的特點,能自動完成代碼編寫任務,從而提升編程效率并輔助模型進行復雜推理。此外,討論了大模型在精神健康領域的應用,例如與中小學生聊天以緩解心理壓力,以及通過引導式對話分析和疏導心理疾病。在醫療領域,介紹了中國首個醫學大模型“本草”,以及基于大模型的多智能體辯論和人機融合醫療會診平臺,用于解決復雜醫療問題。最后,提到了軟硬一體的機器腦項目,展示了通用機器人腦在控制多種形態機器人、執行復雜任務(如自動打咖啡)方面的潛力,體現了大模型技術在智能機器人領域的應用前景。
19.人工智能未來發展方向及階段預測
討論了人工智能未來的發展方向,強調了從當前推理階段向多模態、具身能力乃至社會自組織機器人的演進。提到了從非交互式到交互式的轉變,并詳細介紹了Open I提出的通用人工智能發展的五個階段:聊天機器人、推理器、代理、創新和組織,每個階段代表了AI能力的逐步提升。此外,還探討了實現這些階段所需的條件,包括互聯網級別的數據、多模態和物理控制能力,以及最終的社會自組織能力。
20. 自然語言處理與大模型技術的未來展望
重點介紹了自然語言處理(NLP)作為人工智能的關鍵領域,被譽為人工智能皇冠上的明珠。大模型,也被稱為基礎模型(foundation model),已成為人工智能的基石,支撐著其他能力的發展。特別提到了deep seek的R一模型,其三大核心貢獻包括僅通過強化學習獲得推理能力、極致的模型優化,以及開源和蒸餾技術的應用。報告還探討了transformer模型的主導地位和未來可能的替代技術,以及自然語言處理從面向自然語言轉向基于自然語言的處理,語言模型成為人工智能的基石。最后,提出了創新能力和人工智能學院作為未來研究和教育的方向。
篇幅有限以上只是部分內容概覽