一 前言
ChatGPT大眾熱情逐漸褪去,但在后臺技術人的探索還處于熱火朝天狀態。如果我們生活的世界是一杯清水, 那類似ChatGPT的語言大模型技術的橫空出世就如滴入水杯的一滴墨汁,第一滴很顯眼,但實際上是后續墨汁慢慢擴散滲透才是最重要的節奏,最后將我們每一個水分子都會被包圍,潛移默化地影響我們每個人。
這類大模型技術對于普通人來說,各種屏障,各種技術名詞讓人眼花繚亂,還是有較高的使用門檻的。即使對于技術領域的人來說,也是需要時間來學習和消化的。但好在技術萬變不離其宗,都是物理和數學定理的不同表現形式,最后還是能夠被搞技術駕馭的,但非技術背景的普通人則需要學習一下基本知識。
本文就是為幫助不懂大模型的普通人來入局大模型應用。你讀一遍或兩遍后就對大模型有了基本了解。對于大模型應用在聊天,基本內容生成領域你可以輕松應對,至少能滿足你對娛樂,個人工作效率的提升。同時如果后續你需要在工作環境中充分利用大模型的能力,了解一些背景知識也可以有助于你選擇方向繼續深造。
二 步驟
使用大模型應用,你需要遵循的步驟是:
第一步。懂基礎:先了解ChatGPT等大模型的背景知識
第二步。找應用:根據你的需求來找到適合你的ChatGPT類應用
第三步。學技巧:學會你選中的大模型應用的基本使用技巧
第四步。建功效:進階到高級用戶水平來解決你工作中的實際問題
下面,我們就從四個步驟進行詳細解釋。
1. 第一步 懂基礎
第一步就是了解ChatGPT和其它大語言模型應用的相關背景知識,基礎概念。這一步非常重要。舉一個例子,給原始人一部汽車,因為他對汽車沒有任何概念和背景知識,就要琢磨很長時間才能弄清楚這是什么,能做什么用?方向盤,發動機,輪胎的作用。
問題:什么是大模型應用?
通俗來講,ChatGPT和其它類大語言模型應用是一個計算機程序,這個程序構建過程就是將人類歷史上產生的文字信息輸入到計算機中的機器學習模型程序中進行訓練,讓這個程序對這些知識進行整理,總結,歸納,甚至推理,訓練到一定程度后這個計算機程序就能與人類或者其它計算機程序流暢地以文字為主要形式進行交互和生成內容。
問題:大模型應用的主要組成部分是什么?
在上面這個大模型應用的通俗定義中包括三個重要部分:機器學習模型,輸入數據,和應用場景。
機器學習模型是人工智能用來做訓練和推理的。機器學習模型的學習過程就研究員(開發人員)先設計一個算法計算機程序,然后找到有代表性的各種文字,圖形,聲視頻等知識信息輸入到這個算法程序中,讓它尋找和總結隱藏在這些信息中的各種規律,比如如何分析,如何理解,如何推理,如何產生新的話語等等,這就是一個學習過程。與一個人類嬰兒從小到大不斷接受聲音,圖像視頻,文字的學習過程一樣,嬰兒的大腦就是一個算法程序,對外界的一切知識進行學習整理總結推理,逐漸就能夠與其他人進行正常溝通。
與嬰兒學習類比,機器學習只不過將這個人類學習,推理,說話的大腦變成一個計算機算法程序。
大語言模型主要是指文本(語言)形態交互的,而多模態大模型則是將范圍推廣到圖像,視頻,聲頻等領域的學習和內容生成。這些語言大模型,和基于大模型的圖像識別分析技術等都屬于人工智能技術大類中的小類。
去年年底開始爆火的ChatGPT在與人類對話,寫作(又稱文本生成能力),總結,推理,內容創造等領域能力非常強,這些都是應用場景。而通過人工智能技術創造文字,圖形,視頻等內容稱之為AIGC-人工智能生成內容。AIGC是大模型目前最常見的應用場景。
問題:之前科學家一直做這類工作,但為什么ChatGPT的上線引起了這么大的轟動呢?
這是因為之前人工智能方面嘗試的產品效果都不能令人滿意,訓練出來的模型只能達到人類很低智商水平,而且只能專注于某個特定領域。而ChatGPT回答人的問題水平已經能達到甚至在一些領域超越人的水平。而且是用一個模型同時在多個領域上進行學習和輸出。這就是所謂的通用人工智能(AGI),人工智能領域的圣杯。通用人工智能的優點就是只需要訓練一次,就可以將訓練后的結果應用到大多數領域。這里就是和語言相關的任何領域,比如:回答問題,寫文章,分析文章,翻譯,還有通過語言解釋的數學,物理,化學,生物,倫理問題等等。
訓練計算機程序以達到人工智能能力有兩個重要的影響因素:算法模型和輸入數據。
- 算法模型等同于一個人大腦,它能接受,學習知識并進行處理,總結和推理。
- 輸入數據如同一個人的經驗閱歷(無論是自己看到,聽到,還是讀書學習的)。
如果你大腦一團漿糊,無論上多少學,行多少里路,你還是不能達到高水平做出判斷。
輸入數據要多而且信噪比低。也就是說數據質量要好,量要大。就如同你大腦再聰明,但你沒有機會看過任何一本書,從來沒有走出你的房間,沒有任何學習參考的資料,或者看到的知識都不是對的,那你還是不能學會對世界的基礎認知能力,進入到社會還是不能處理基本工作。高效算法模型和高質量大量輸入數據都不可缺。
問題:為什么是OpenAI有了巨大的技術突破?其它公司之前從各個角度,各種技術方案中嘗試了許多路徑,但只有Open AI在算法模型和數據這兩方面都選擇對了,取得了巨大的成功。它使用一種叫轉換器(Transformer)的機器學習模型,對這個模型輸入了幾乎是互聯網上人類所有公開高質量信息,在2048個復雜的GPU(圖像處理單元芯片)芯片的計算機上進行數萬個小時的學習訓練,而打造出來ChatGPT背后的大模型。公司經過近8年不懈的試錯和努力,終于開發出這個在語言理解,問答,寫作,甚至一些推理水平最終與真人相比甚至達到了以假亂真效果的產品,也就是ChatGPT(高級版本4.0)可以通過評估人工智能水平最知名的圖靈測試(Turing Test),這與之前的人工智能探索工作而得到的其它結果相比都是革命性的。
圖靈測試是AI系統智能程度的一種衡量標準。它由英國數學家阿蘭·圖靈在1950年提出。測試的主要內容是:人與機器通過文字交互對話,如果人無法分辨對方是人還是機器,那么這個機器就能通過這個測試,被視為具有"人工智能"。
問題:為什么ChatGPT類背后的模型都稱之為大模型?
這是因為模型參數的數目,以及用于學習的知識數量(稱之為語料),以及學習需要花費的計算機算力和時間與之前的模型相比都是數量級的提高。比如ChatGPT使用的模型參數3.0 版本是1750億,4.0估計在萬億。訓練數據集的大小也是數TB規模。綜合這些參數大小和輸入數據,學習時間等因素,稱這些模型叫大模型。
總結一下,上面討論了AI大模型的關鍵概念包括:機器學習(ML),人工智能(AI),算法程序(Algo),輸入數據(DataSet),判斷人工智能水平的圖靈測試(Turing Test),語言大模型(LLM),AI生成內容(AIGC),通用人工智能(AGI).下面來看看如何選擇大語言模型相關的產品應用。
2. 第二步 找應用
從去年年底到現在,ChatGPT類的大模型應用經過了爆發性的發展,幾乎每日都有新應用,新模型出現。對于普通人來說,信息爆炸導致無所適從,到底該使用哪些應用,怎么用呢?對于普通人來說,大語言模型或者其它基于人工智能機器學習的產品常用的領域基本上就是聊天,寫作,圖像視頻創作,編程(碼農近水樓臺先得月,但先把自己解雇了)。你就是需要從上面領域中找到適合你的模型應用產品(可訪問性,性能,費用方面進行考慮)。每個領域都有領軍型產品,但由于各種原因(隔離,限制,安全,費用等方面考慮),你可能無法使用這些領軍產品,但好消息是國內國外市場上出現了眾多應用,從這些眾多應用里面,你總可以找到平替或者能力稍微弱一些的應用產品來從一定程度上滿足你的需求。國內外大模型應用一般都有免費版和付費版,兩者區別可能是在準確度,模型版本,響應時間,能夠輸入或者聊天的數據量等維度上。
1. 因為性能還是比較領先的,所以用戶一般首選國外大模型應用,比如ChatGPT,但國外大模型應用在國內一般不能直接訪問,但有授權的國內公司或者AI愛好者會建立程序通過網頁或者微信公告號,小程序等進行后臺鏈接到國外的大模型比如ChatGPT上。具體地址需要自己去網上或者群里尋找。國內也有一些轉發網站只讓你試用一次,然后讓你去充值。這種一般都不是好的方式。
2. 國內也有很多平替模型應用,比如清華大學和智源開發的ChatGLM模型, 可以去ChatGLM(http://chatglm.cn)網站注冊。注冊流程也比較簡單。
3. 還有一些集成網站,把不同模型集成到一個應用上,用戶可以在一個平臺上切換不同模型進行嘗試。如http://poe.com
可以點擊原文鏈接來進入http://All4AI.net?應用導航網站,查看上千個應用介紹和源鏈接。
下面我們就從這幾個常用的產品和應用方面開始介紹。
類別1. 聊天應用 - 文本類:
體驗大模型應用最簡單的方法就是使用人工智能APP/網站來聊天。這個門檻最低,你只要輸入問題,應用就回答你。OpenAI的ChatGPT是第一個爆款產品, 也是現在公認最好的產品。類似于chatGPT目前市場上出現最多的應用,用戶一般需要下載一個APP或者登錄網站,在輸入框中輸入問題(專業名詞叫提示語,提示指令),就可以與背后的大模型進行聊天,非常簡單的界面。而聊天的領域可以是方方面面,無論你說什么,問什么,應用都能夠八九不離十地給出你答案。
其它國外聊天應用包括:Claude,ChatGPT團隊人出來做的,還有Google 的Bard等。也有很多聊天應用基于Meta臉書的開源LLama模型的。國內的替代產品包括清華和智源做的ChatGLM, 還有百度的文心一言,科大訊飛的基于星火大模型應用。可以去http://all4ai.net?找到更多類似應用。大模型應用聊天比之前的幫助查詢程序高明之處在于它能夠持續記住和分析你和它聊天的上下文,根據上下文來回答問題。這種形式更接近兩個人之間的聊天。
比如下面對話:
- ·問:烤鴨好吃嗎?
- ·答:好吃。
- ·問:為什么?
- ·答:脆皮味道好!
這里人都會知道第二個問句是問為什么烤鴨好吃。但讓計算機程序能夠知道這兩個問題的聯系并不是很容易的事情, 比如搜索網站的查詢方式,每次都只知道你問的第一個問題,第二個問題從重新開始進行解釋,并沒有把第一個問題和后續問題的聯系性一并考慮。而現在大模型知道這個上下文關系了。
類別2. 寫作應用 - 文本生成類:
實際上面提到的聊天應用都可以用于寫作,因為回答問題或者提示指令的內容就是寫作的過程。讓應用寫作一般是以指令形式來”命令“大模型應用進行創作的。國外可以使用ChatGPT,Claude,國內有清華與智源的ChatGLM,百度的文心一言等等(見導航網站中的中國大模型導航部分)。例如下面例子,威寫一個簡歷。只需要一句話,2分鐘就可以洋洋灑灑寫出這么多字。如果再進行細化提示,會更專業。
你還可以使用大模型應用一鍵生成PPT。對于辦公室白領來說,PPT應用場景絕不會少,行業研究,工作匯報,問題總結等等。
類別3. 繪畫應用 - 圖像生成類:
比較有名的產品是MidJourney,Stable Diffusion,Dall-E。
大模型可以通過文本到圖像生成的方式,根據描述文字輸出與之對應的圖像。這種技術通常需要大量標注圖像數據進行訓練。繪畫創作,圖像生成類應用中的大模型,可以通過如下步驟實現原畫創作功能:
- 你輸入你需要的畫的要素(提示語)。
- 大模型理解文本描述中的場景、人物、動作等要素。
- 構建文本描述的視覺輪廓。
- 通過大模型技術,將輪廓轉換為具體的圖像。
- 輸出圖像結果。
目前這種原畫生成仍有很多局限性,但可以勝任一般應用場景的插畫,設計樣稿等。
類別4. 視頻應用,聲頻內容創作 - 視頻聲頻類
與圖像生成類應用一樣,都是依賴大量數據輸入到人工智能算法模型中進行訓練而造就的。只不過用戶以文本提示指令輸入,應用輸出視頻或者聲頻作品。之前需要幾個人一個星期的視頻創作工作現在使用AI技術只需要一個人不到一個小時的工作量。大大提升了工作效率。很多以假亂真的數字人也是采用這些文本,視頻,聲頻多模態人工智能技術來實現的。比如runway 視頻生成軟件是基于Gen2 大模型的從文字自動生成視頻的應用,你只需要輸入一段文字,它就幫你自動產生相關視頻。
生成上面短片的提示文字是:在浩瀚的宇宙中,遠望一個紅色的星球,逐漸zoomin直到星球表面的一個城市輪廓。整個城市的建筑都被巨大的玻璃罩子罩住,在城市的大門兩旁佇立著兩個巨大的石人像,帶面具的石像。
軟件界面是這樣的。
類別5. 編程助手 - 效率類
這類應用一類是在上述聊天軟件(ChatGPT等)中可以使用這個功能,對于初學編程的人簡直就是福音啊。幾句話就可以編出一段帶注釋的程序。還有一類是以插件形式(最好的工具是OpenAI的code interpreter, GitHub的copilot, 國內的是CodeGeex)更專業地幫助你編程。但一般來說這類應用的問題是你對產生的程序還是需要檢驗,修改。復雜程序是不能直接運行的。最好的模式就是你讓它產生程序框架,然后對于這個框架內的每一段函數提示它完成具體功能。現在也有類似集成的控制工具。
3. 第三步 學技巧
確定了你的應用場景,選擇一兩個應用,下一步就是學習如何使用了。大語言模型或者其它AIGC應用一般流程都是用戶給系統一系列的指令(prompt),然后應用來生成回答,或者文章,或者圖像,視頻等。說白了,就是你以聊天談話方式告訴應用要做什么事情. 這一點與之前的應用有比較大的區別,之前都是點擊某個菜單,按鈕來執行確定的任務。 用聊天談話方式指示系統做事情有好處也有壞處,好處是用戶使用起來比較方便,畢竟每個人都會一定程度的聊天談話。壞處是如果指令不明確,應用程序執行的任務就不對了,或者沒有充分發揮系統的作用。這個就如同領導安排任務給下屬一樣,指令要明確一樣。所以你使用大模型應用需要學習的第一個重要的技巧就是如何使用合理的提示語來讓應用回答問題或者創作內容。現在甚至出現了一個專門的崗位:提示工程師,據說可以年薪百萬。下面列出2個提示語示例和ChatGPT給出的回答:
示例1:請寫一篇引人入勝的蘋果手機廣告,直接與我的客戶對話,并鼓勵他們在我的網站:http://buymyuniqueapplephone.com上下單。
示例2:你的任務是以小紅書博主的文章結構,以我給出的主題寫一篇帖子推薦。你的回答應包括使用表情符號來增加趣味和互動,以及與每個段落相匹配的圖片。請以一個引人入勝的介紹開始,為你的推薦設置基調。然后,提供至少三個與主題相關的段落,突出它們的獨特特點和吸引力。在你的寫作中使用表情符號,使它更加引人入勝和有趣。對于每個段落,請提供一個與描述內容相匹配的圖片。這些圖片應該視覺上吸引人,并幫助你的描述更加生動形象。我給出的主題是:九寨溝旅游
你既可以使用非常簡單的提示語,也可以使用比較復雜的提示語。但往往是復雜的,更精確的提示語會給你更為準確的回答。為什么會這樣呢?這背后的原因就與大模型本身特性有關系了。想象你有個儲物的房子,每個房間空間有限,只能放10件東西。如果你這個房子只有兩間房子,然后從這兩間房試圖找到一個東西,應該不費力,只要一個一個查過來。但如果這個房子有一萬個房間,這時讓你找個東西就很費勁了,如果限制了時間,那么大概率你找不到。 但如果你有了目錄,哪怕是能將范圍限制到10個房間里,你也應該不難找到。人類的知識好比是這些房間的東西, 大模型通過學習歸納把他們分門別類地放到它有很多房間的房子里,知識非常多,很難一件一件去找。而合理的指令則是大模型把范圍縮小的最好方法。不好的指令可能將大模型帶偏了。大模型應用真正的是看人(指令)下飯碟的。當然,上面例子過于簡化處理,但基本上就是一個通用人工智能(AGI)產品,其知識量非常大,需要一層一層地(一個指令一個指令)啟發它找到正確的房間。這也如同與真人談話一樣,需要想出很多話來一步一步地獲得更正確的信息。為了能夠幫助普通人更好地駕馭大模型應用,網上也出現很多提示數據庫,來幫助你更好地問問題和給出指令。只要你多用,就很快能夠達到基礎級別的能力,滿足你娛樂或者工作場合一般使用目的。我們還從市場看到了大量命名為不同角色的聊天機器人,比如律師,算命,小紅書文案等等,實際上都是使用簡單的指令預設方法來實現的。這些應用(稱之為大模型套殼應用),基本上一個簡單的轉發網站或者app,一端鏈接你,一端鏈接大模型應用。每次你打開應用時,這個系統就從后臺將預設指令發到這些大模型應用上,大模型就會根據預設指令來定位自己的尋址空間,然后你后續提的問題被轉發到大模型應用那里,它就會將之前預設的指令和你的指令合并進行回答。因為這些預設指令時隱藏在后臺的,你就會有這個大模型是專用領域的大模型錯覺。
套殼中間商示意圖目前各個大語言模型都有輸入指令的大小限制。這個也就限制了你能使用這些指令來獲得優質答案的能力。
4. 第四步 建功效
進階到高級用戶水平來解決你工作中的實際問題。要求的質量也是從娛樂級別升級到生產級別。 這樣的轉變有幾個需求點:
- 模型輸出更準確,更專業
- 模型能夠處理更復雜的場景
這便是進階水平需要掌握的了,后續補充。
本文只是方便了解熟悉ChatGPT的概念和使用,整理自別人的貼子。