0 prompt engineer
就是prompt工程師它的底層透視。
1 學習大模型的重要性
底層邏輯
人工智能大潮已來,不加入就可能被淘汰。就好像現在職場里誰不會用PPT和excel一樣,基本上你見不到。你問任何一個人問他會不會用PPT,他都會說會用,只是說好還是不好。你除非說這個崗位跟電腦完全無關。但凡說能用上電腦的,基本上都會用excel和PPT,你不會用的基本上都被淘汰了,邏輯一樣。
人工智能雖有一些應用場景,好像跟普通人沒關。如智能駕駛,人臉識別,好像跟普通人關系不太大,我們都是被動使用。但現在這大模型跟我們每個人都有關,它是一個強大提升工作效率工具。你不會用,將來就好像跟PPT和excel一樣,你就會慢慢的被職場淘汰。
會用就行?好像我們會用大模型,好像很簡單對吧?無論是文心,還是通義千問,還是ChatGPT,用起來很簡單,就是聊天不就OK?但其實不夠,因為我們用它不只是當搜索引擎,用它是為提升工作效率,所以還要用的好。
啥叫用的好?
如寫文章,PPT,寫excel,可讓他給你進行優化。甚至codding,也可讓大模型幫你寫。當然說讓它完全替代你的代碼不可能,但是你可以用它給你寫一些框架性東西或具體的一個小問題,可直接讓他寫,然后拿過來你試下好不好用,甚至有bug也可以讓他改一下。這樣其實還是大幅度提升工作效率,最終跟PPT和excel依然邏輯類似。
2 大模型的潛力與微調
大模型是人工智能代表,潛力與使用方式有關。使用好大模型可提高效率,讓人獲得更好的待遇和更多機會。然而大模型潛力要通過微調挖掘,以適應不同場景和需求。大模型出現引發行業需求爆發,尤其隨ChatGPT到來,其問答能力超過臨界值,行業需求將逐漸增加。
你發現PPT和excel用的好的PPT一看就驚艷,excel用的特別熟練,你這個數據分析用的非常的到位,你的待遇會遠遠高于那些用的不好的。大模型也一樣:
- 用好你可幾倍于原來效率
- 用不好,你可能跟原來沒什么區別
差距非常明顯,有人就可一人干兩人活,那待遇肯定遠高于能保持原效率的人。大模型底層邏輯用的不好:
- 要么沒挖掘出大模型潛力,你只是讓他答一些普通問題
- 要么就是你這個prompt寫的不好,他就開始胡亂回答
- 或你問的問題范圍不好,他就開始胡亂回答
這都是用的不好的一些標志,但最終你用的好。
假設你已通過各種嘗試磨練或技巧學習,把某模型潛力發揮到極致。如文心一言最終能解決所有問題嗎?也不行,就比如大模型不會回答關于你公司內部信息問題,因為他不知道,他沒訓練過。
當然現在通過知識庫可部分解決這個問題,但知識庫不是萬能,最終他一定會有場景需要訓練。比如說你想調整他回答的語氣,讓他活潑點或更官方點或讓他的回答的更有一些個人特色。這種場景的大模型,因為它沒有訓練這種內容,所以它不可能滿足你的需求。你一定要對它進行訓練,至少微調。
所以總結下,大模型是一個非常強大的一個工具,他作為人工智能代表,AIGC已來到普通人接受范圍內。這時不僅要會用,還要用好,甚至會微調,才能拉開跟其他職場人員的差距。這樣我們的待遇才能更豐厚,工作機會更多。
你要學習到第二點,就是行業需求爆發了,就是基點以來。自從大模型出現,它的問答能力突破了一個臨界值,就好像都有一個值。以前的模型都在臨界值下徘徊,導致很難商用,只能在學術界兜轉。直到ChatGPT才邁過這閥值,就是我們能接受的門檻,錯誤已經少到一定界限。這種我們會發現他已經可以用了,問什么問題都能回答上來,這就是基點。這就導致行業需求其實是慢慢會爆發起來的,它應對哪些場景呢?
3 大模型的應用需求
大模型在公司內部問題解決、產品解答、智能聊天和游戲NPC等方面的應用需求。大模型的使用可以提高效率、流暢度和人機交互體驗。隨著需求的增加,相關工程師的需求也會提升。
對內
像OAERPCRM等這些問題。平時都是是文檔來文檔去,比如說里面OA公司的制度都是文檔,某人對某制度疑惑,要么問HR或行政,整體效率低。未來這些知識其實全部都可接到一個大模型之后,讓一個模型加一個知識庫,效率大大提高。
對外
也有類似客服解答產品的這種需求。每個公司都有自己的一些產品,有些產品邊界、產品參數,還有一些應對各種情況的服務之類的,都要解答客戶問題。現在解決方法一般先建一個官方網站里面介紹產品,然后后面再對接一個真人客服,當然也會加一些智能客服內容,但總體效果不如未來使用大模型加知識庫,然后還有智能聊天,這是最底層需求。但現在人越來越忙,尤其老年人,他們沒人聊天。這需求其實非常大,但一直沒有被滿足。但總之現在大模型出現之后,讓問題看見曙光。
智能NPC
如游戲里面的NPC都是寫死的,都是給你一個邏輯控制,遇到啥場景他做啥回答,完全寫死,所以感覺刻板。如將來游戲NPC也接入大模型,讓他對話更流暢,更像一個人。但這個游戲里面單純的找各種不同人對話,是不是感覺也很有意思?這就是游戲里需求,也非常大。尤其未來元宇宙如果出現vr、ar都結合上之后,再加大模型,這里面的需求場景幾乎無限大。
行業需求爆發,是不是可能讓從事相關工作的工程師的待遇進行提升?肯定的,不過個案不能代替全部。如果說按一個行業,它總體待遇是由供需關系和創造價值量決定的。但是總體上它的需求產生了爆炸性提升。但總體上,互聯網其實就是一個這樣一層一層往上疊代爆發的過程。
4 互聯網行業技術發展與工資待遇
互聯網行業工資待遇高的原因是因為需求突然爆發,供應不足;互聯網是編輯成本低的行業;創造的價值量與用戶量成正比,但成本不成正比;技術的發展也是一層一層往上疊代的,學習最頂層的技術才能拿到高薪。
互聯網剛出,你會個HTML,簡單JS,工資可能就拿非常高。當時根本無法想象的。90年代當時美國互聯網泡沫,你就是會一個HTML這么簡單的一個東西就可以拿很高的年薪。就是因為這個需求突然爆發了,但供應提不上來,沒那么多人會,所以工資待遇高。而且互聯網又是一個編輯成本很低的一個行業。就是你只要做出一個東西,可以給全球每一個人看你這個成本,還是原來的成本不會增加太多。
這就是為什么互聯網行業的待遇容易比較高,這就是創造的價值量跟你的用戶量成正比,但是你的用戶量跟你的成本卻不成正比。你一個用戶成本跟100萬個用戶的成本其實差不了許多,差的可能你就是服務器成本,但是你主要的研發成本差不多,剩下主要是供需關系。
最開始HML假設在這位置,然后就是ASP、PHP語言剛出來的一些動態頁面,會這些語言你就高薪。再往后安卓出來智能手機IOS之前可能還有java,java是在這位置后,然后IOS和安卓它是一層一層往上開發,然后到算法,現在到了大模型。
你現在再學習下面的東西,如HTML,PHP5、java。在現在這個位置學習他,你不可能高薪,因為它已是基礎設施。就好像你開發應用一樣,你現在去開發操作系統,你除非說國產替代,正常來講,微軟和蘋果已把操作系統完全占領,你不可能再打開空間。再往上,可能微信QQ之類的,你再開發一個類似的,也不可能打敗它。
跟這個技術的原理是類似的,技術也是一層一層往上疊代。你現在這個角度去學習更底層東西。不是說完全沒必要學,如果說你有時間可學習,這樣知識體系更完整。但僅靠下面知識找工作,高薪不易。你只有拿最頂層技術,可能高薪。
5 大模型訓練經驗與高薪offer
前段時間有個大模型訓練的拿到200萬年薪。工作經驗只有六年。他為什么那么高offer?大模型經驗他比較多,大模型其實是GPT3出來后,CP3出來到現在大概也就三年。算上GBTR大概四年,他在阿里就有四年大模型訓練經驗,很難得。
模型本身其實現在工作需求已比較大。如果說它下面游戲NPC有了一個突破,然后你又比較熟悉這方向,會的人又比較少。這時你立馬就可跳槽拿高薪。
6 為啥通過本套專欄學習大模型?
這套專欄是圍繞大模型,就圍繞ChatGPT進行組織的。首先基于ChatGPT的歷史發展開始講解前后左右:
- 前就是它的歷史
- 后講大模型延伸。高效微調訓練也會講,但是我們完整的這個175B的ChatGPT訓練不動。所以用了高效微調訓練了一個6B的模型及launch基于long ten結合一個稍微小一點的語言模型6B的進行一些應用的開發,這是后面
- 左右就是用到了強化學習,在ChatGPT訓練的時候用到了強化學習。展開講了,避免你產生一些知識盲區。
不像有的說講這個ChatGPT,直接把NLP1大套底層的知識都搬給你,這些也不是沒有用。但是就對你這個主題稍微有點偏會,導致你如果說這個東西肯的時間太長,會讓你興趣喪失,不太利于你學習。這個知識用到的知識我都給你講了也不會顯得過于單薄。
現在關于大模型或ChatGPT專欄,主要還是一些帖子或簡單專欄。它對它的GPT依賴的一些知識,如transformer、歷史,還有強化學習都不太多。這就需要你有比較多的基礎知識才能看那些課。我這課相對降低你對基礎知識要求。講課的時候也包含了一些底層的思考,你也可以認為是一些類比,能讓你更好的理解這些模型到底是在干什么。
7 專欄學習方法及收獲
現在訓練專欄都不系統,因為ChatGPT是新興事物,22年8月才出現,然后11月才火起來,至今不滿2年。要么它就是基于傳統的NOP專欄,然后再單獨開一張,介紹一下全程PPT。
學習方法
不只是學習本套專欄的方法,其實學習所有人工智能你都可以用這套方法,就是關于數學公式推導。人工智能有大量數學公式推導,是人工智能專欄最大難點,但你數學不好,又想學課咋辦?建議先跳過,先掃兩眼公式,感覺看懂就看看。看不懂跳過,把公式推倒當成黑盒,只記結論及邏輯。但建議你有能力,感覺數學還可,還是把公式啃完,當然了大部分應用開發工程師不需要。
收獲
你會學習到ChatGPT等大模型訓練原理,即:
- 底層原理
- 如何訓練
然后掌握多種NLP邏輯,因為fort它是為了解決下游NLP任務的,如文本分類,N12,閱讀理解。所以本套專欄其實都會在介紹port時候介紹一些邏輯。用它們解決下游任務也比較簡單,在代碼實踐上也進行了一個樣例的操作,可上手解決實際問題。你就拿一個人家訓練好的波爾模型拿過來,然后在下游進行或者分類,或者說NE2,去接一下不同的下游處理,就可以直接上手處理不同的任務,或者一般還是需要微調的,所以你再訓練一下就可以解決實際問題了。
然后理解bert和GPT的模型異同,實際上是bert系列和GPT系列他們的模型的差異。然后學會高效調參技巧,如peft和 Langchain。簡單理解就是你的顯存不夠時,還能把這個大模型訓起來。如6B13B都可訓起來。最后就學會用浪琴加上不同大模型。如千問模型再加一個知識庫向量數據庫,如face搭建一個自己的智能助手,這是收獲。
8 適合人群
想從零開始學習chatGPT的人群。基礎不多想學沒關系,數學基礎不是那么的優秀也可學。可把數學公式推導先跳過。后面對數學有興趣,把這基礎補補再來看也OK
想理解大模型底層原理,以便更好使用大模型。如為什么大模型避免不了幻覺,就是說它避免不了胡亂回答。你只有理解底層原理才知為什么,你才能盡量的有指導性去回避讓他亂答。
想自行訓練和搭建大模型服務的人群。要么就是外包,你給別公司去搭建。要么就是你在公司里其他人都不會,又不想花很多錢去買外包服務。但自己學一下給自己公司搭一個大模型的服務地圖儲備,這個其實還看目的。如只是想學會它底層原理,然后去更好使用這些模型,那懂點點python、linux就可。對技術依賴不多。但如果說你想訓練場,你想玩的更徹底,那我的建議還是要有一些數學基礎,有一些人工智能基礎。
如何系統的去學習大模型LLM ?
作為一名熱心腸的互聯網老兵,我意識到有很多經驗和知識值得分享給大家,也可以通過我們的能力和經驗解答大家在人工智能學習中的很多困惑,所以在工作繁忙的情況下還是堅持各種整理和分享。
但苦于知識傳播途徑有限,很多互聯網行業朋友無法獲得正確的資料得到學習提升,故此將并將重要的 AI大模型資料
包括AI大模型入門學習思維導圖、精品AI大模型學習書籍手冊、視頻教程、實戰學習等錄播視頻免費分享出來。
所有資料 ?? ,朋友們如果有需要全套 《LLM大模型入門+進階學習資源包》,掃碼獲取~
👉CSDN大禮包🎁:全網最全《LLM大模型入門+進階學習資源包》免費分享(安全鏈接,放心點擊)👈
?
一、全套AGI大模型學習路線
AI大模型時代的學習之旅:從基礎到前沿,掌握人工智能的核心技能!
二、640套AI大模型報告合集
這套包含640份報告的合集,涵蓋了AI大模型的理論研究、技術實現、行業應用等多個方面。無論您是科研人員、工程師,還是對AI大模型感興趣的愛好者,這套報告合集都將為您提供寶貴的信息和啟示。
三、AI大模型經典PDF籍
隨著人工智能技術的飛速發展,AI大模型已經成為了當今科技領域的一大熱點。這些大型預訓練模型,如GPT-3、BERT、XLNet等,以其強大的語言理解和生成能力,正在改變我們對人工智能的認識。 那以下這些PDF籍就是非常不錯的學習資源。
四、AI大模型商業化落地方案
階段1:AI大模型時代的基礎理解
- 目標:了解AI大模型的基本概念、發展歷程和核心原理。
- 內容:
- L1.1 人工智能簡述與大模型起源
- L1.2 大模型與通用人工智能
- L1.3 GPT模型的發展歷程
- L1.4 模型工程
- L1.4.1 知識大模型
- L1.4.2 生產大模型
- L1.4.3 模型工程方法論
- L1.4.4 模型工程實踐 - L1.5 GPT應用案例
階段2:AI大模型API應用開發工程
- 目標:掌握AI大模型API的使用和開發,以及相關的編程技能。
- 內容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具類框架
- L2.1.4 代碼示例 - L2.2 Prompt框架
- L2.2.1 什么是Prompt
- L2.2.2 Prompt框架應用現狀
- L2.2.3 基于GPTAS的Prompt框架
- L2.2.4 Prompt框架與Thought
- L2.2.5 Prompt框架與提示詞 - L2.3 流水線工程
- L2.3.1 流水線工程的概念
- L2.3.2 流水線工程的優點
- L2.3.3 流水線工程的應用 - L2.4 總結與展望
- L2.1 API接口
階段3:AI大模型應用架構實踐
- 目標:深入理解AI大模型的應用架構,并能夠進行私有化部署。
- 內容:
- L3.1 Agent模型框架
- L3.1.1 Agent模型框架的設計理念
- L3.1.2 Agent模型框架的核心組件
- L3.1.3 Agent模型框架的實現細節 - L3.2 MetaGPT
- L3.2.1 MetaGPT的基本概念
- L3.2.2 MetaGPT的工作原理
- L3.2.3 MetaGPT的應用場景 - L3.3 ChatGLM
- L3.3.1 ChatGLM的特點
- L3.3.2 ChatGLM的開發環境
- L3.3.3 ChatGLM的使用示例 - L3.4 LLAMA
- L3.4.1 LLAMA的特點
- L3.4.2 LLAMA的開發環境
- L3.4.3 LLAMA的使用示例 - L3.5 其他大模型介紹
- L3.1 Agent模型框架
階段4:AI大模型私有化部署
- 目標:掌握多種AI大模型的私有化部署,包括多模態和特定領域模型。
- 內容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的關鍵技術
- L4.3 模型私有化部署的實施步驟
- L4.4 模型私有化部署的應用場景
學習計劃:
- 階段1:1-2個月,建立AI大模型的基礎知識體系。
- 階段2:2-3個月,專注于API應用開發能力的提升。
- 階段3:3-4個月,深入實踐AI大模型的應用架構和私有化部署。
- 階段4:4-5個月,專注于高級模型的應用和部署。
這份完整版的所有 ?? 大模型 LLM 學習資料已經上傳CSDN,朋友們如果需要可以微信掃描下方CSDN官方認證二維碼免費領取【保證100%免費
】
全套 《LLM大模型入門+進階學習資源包》↓↓↓ 獲取~
👉CSDN大禮包🎁:全網最全《LLM大模型入門+進階學習資源包》免費分享(安全鏈接,放心點擊)👈
?