DeepSeek-R1Supervised finetuning and reinforcement learning (SFT + RL)
好啊,我們今天的直播會非常透徹的跟大家系統性的分享一下整個agents AI就大模型智能體系統和應用程序。我們在做開發的時候,或者實際做企業級的產品落地的時候,你必須考慮的一些核心點。這個核心點包括我們在做整個大模型智能體的時候,它會涉及的一些關鍵問題。同時也包括基礎模型、推理模型。當然在這個過程中會談基礎模型和推理模型很多不同的維度,比如說基礎模型怎么去運行,尤其是它的decoding過程的一些算法,那推理模型的時候,我們會講結合強化學習以及它具體的實現的不同的方式,都會跟大家比較系統的進行分享。我們之所以說這些東西是你無法繞過的一些部分,是因為他們構成了整個大模型智能體應用程序的底層的核心能力。