初識大模型
在平時遇到問題時,我們總是習慣性地去運用各種搜索引擎如百度、知乎、CSDN等平臺去搜索答案,但由于搜索到的內容質量參差不齊,檢索到的內容只是單純地根據關鍵字給出內容,往往看了幾個網頁都找不到答案;而如果我們將問題輸入大模型,因其擁有非常龐大且高質量的知識儲備,比我們直接用搜索引擎找答案方便很多,同時還能識別你所輸入問題的細節,比如“不想用某種方法”這類文本的語句,輸入大模型后所找到的答案會避開所說的方法。
大模型的演變
人工智能按照技術實現可以分為多個子領域:
人工智能
人工智能是一個廣泛涉及計算機科學、數據分析、統計學、機器工程、語言學、神經科學、哲學和心理學等多個領域,說白了就是可以把我們所學習的各種領域的知識在應用時量化,并更好地結合去給出答案。
機器學習
機器學習可分為監督學習(指導分類)、無監督學習(主動聚類)和強化學習(試錯),前面兩者區別在于是否用帶有標簽的數據進行訓練,而后者則是通過反饋機制讓機器自己平衡探索新方法和利用已有經驗,最大化獎勵次數。
深度學習
深度學習是機器學習的一個分支,主要使用神經網絡模型(有多個隱藏層組成),對數據進行學習和表示。
通過對大量數據的學習,自動提取出數據的特征,從而實現圖像識別、語音識別、自然語言處理等任務,比如在學習分辨水果過程中,會自動從復雜的信號如視覺、嗅覺等中提取層次化的特征,從而達到識別的目的。
生成式人工智能(AIGC)
生成式人工智能是深度學習中快速增長的子集,其使用了大模型提供支持,在大量原始、未標記的數據基礎上對深度學習模型進行預訓練,使得機器能夠“理解”語言甚至圖像,并能夠根據需求生成內容。
大模型的使用與訓練
使用
我們只需要根據我們的問題向大模型提出需求,就能獲得詳細的回答,但要注意所提出問題的關鍵詞和方式需要嚴謹地按照問題來,往往幾個字的區別,大模型所理解的意思和給出的答案的方向是截然不同的。
訓練
大模型的訓練大體分為預訓練、SFT(監督微調)以及RLHF(基于人類反饋的強化學習)。
預訓練:先學習底層的處理能力和知識,類似于我們在小學到高中的經歷,這些經歷讓我們形成了對事物的認知以及擁有了最基本的處理事情的能力和學習能力;比如我們像大模型詢問“埃菲爾鐵塔在哪個國家”,其會根據看過的關聯類似語句的語料中搜索答案,可能會因為有一個排比詩歌的一句話是“埃菲爾鐵塔在哪個國家,東方明珠在哪個國家”而輸出“東方明珠在哪個國家”而不是“法國”;
監督微調:相比較預訓練,區別在于選擇了一個特定的方向或領域去學習所需的知識點和能力,類似于在大學里我們學習某種專業知識以及對應的動手能力。在這個階段,如果再像大模型提問“埃菲爾鐵塔在哪個國家”,他會根據學習過的人類對話的語料以及垂直領域知識,按照人類的意圖來回答這個問題,即大概率回答“法國”,但并不一定符合我們認知中的一些偏好,可能會有一些過激或者涉及到種族歧視等的言論;
基于人類反饋的強化學習:就像表面的說法一樣,需要根據外界的反饋來判斷是否要這么做,類似于在工作時作為一個新人小白,在遇到問題或開始培訓時請教已經工作了很久的前輩或專家的經驗。在這個階段中,大模型會根據同一個問題給出不同的回答,人類會對這些回答進行打分,大模型會基于這些分數學習到如何輸出分數最高的回答,使回答更符合偏好。
大模型的特點和分類
特點
1、規模和參數量大:大模型通過其龐大的規模來捕獲復雜的數據模式,使得其能理解和生成極其豐富的信息;
2、適應性和靈活性強:能過通過微調或少樣本學習高效地遷移到各種下游任務,有極強的跨域能力;
3、廣泛數據集的訓練:使用大量多樣化的數據進行訓練,以學習廣泛的知識表示,能夠掌握語言、圖像等數據的通用特征;
4、計算資源需求大:巨大的規模帶來了高昂的計算和資源需求,包括但不限于數據存儲、訓練空間、能量消耗和硬件設施
分類
1、大語言模型:專注于自然語言處理(NLP),旨在處理語言、文章、對話等自然語言文本。它們通常基于深度學習架構(如Transformer模型)經過大規模文本數據集訓練而成,能夠捕捉語言的復雜性,包括語法、語義、語境以及蘊含的文化和社會知識。語言大模型典型應用包括文本生成、問答系統、文本分類、機器翻譯、對話系統等;
2、多模態模型(計算機視覺模型、音頻處理模型等):多模態大模型能夠同時處理和理解來自不同感知通道(如文本、圖像、音頻、視頻等)的數據,并在這些模態之間建立關聯和交互。它們能夠整合不同類型的輸入信息,進行跨模態推理、生成和理解任務。多模態大模型的應用涵蓋視覺問答、圖像描述生成、跨模態檢索:多媒體內容理解等領域。
學習來源于B站教程:【基礎篇】04.大模型的工作流程_嗶哩嗶哩_bilibili