本篇筆記內容
1、學習本節課需要的前置知識
- 了解大模型的訓練過程:預訓練、后訓練、強化學習(2024年生成式AI導論前8講)
- 了解基礎機器學習、深度學習概念(如transformer)(2021年機器學習課程)
2、本節課的大綱
- 大模型有怎樣的行為:
- 思考reasoning
- 使用工具(deepreasearch、使用瀏覽器、詢問人類反饋)
- 運作機制:
- 人類給定輸入,大模型給輸出(輸入輸出可以是文字、語言、圖片)
- 生成式AI的基本原理——文字接龍
- 根據給定的一串token,決定下一個token
- 輸入給定的token,確定輸出的一串token,哪個token的概率最大。因為有概率的參與,所以一模一樣的輸入也會有不一樣的輸出。
- 為什么需要深度學習?不精準的比喻是,深度學習可以把輸入拆解成為多個步驟,因此相較于一次性計算所有數據,深度學習多層計算拆開后減少運算量,比較簡單。
- 模型是怎樣產生出來的
- 神經網絡包含“架構”和“參數”兩部分,其中架構包含如“神經網絡有多少層”等,是人為定義好的,一般說工程師調參就是調整架構。(能調整的架構參數,就叫做超參數。參數,則模型是需要通過訓練資料學習的)
- 找出參數過程,就是模型訓練,需要大量語料
零、前置準備&課程大綱
一、有什么行為
1)大模型會推理
2)大模型會使用工具
- deep research
- 使用瀏覽器(操作電腦 open ai operator)
- 詢問人類反饋
二、運作機制
1)給定輸入,有輸出
輸入輸出都可以是很復雜的東西,比如文字、圖片、聲音
2)生成式AI的基本原理——文字接龍
給定一串token,決定下一個token
輸入給定的token,輸出一串概率分布,確定輸出的一串token,哪個token的概率最大。因為有概率的參與,所以一模一樣的輸入也會有不一樣的輸出。
為什么需要深度學習,不精準的比喻是,深度學習可以把輸入拆解成為多個步驟,因此相較于一次性計算,深度學習比較簡單。
如果深度學習的層數不夠,也可以用前一個深度學習的輸出作為下一個深度學習的輸入
三、模型是怎樣產生出來的
神經網絡包含“架構”和“參數”兩部分
其中架構包含如“神經網絡有多少層”等,是人為定義好的。
一般說工程師調參就是調整架構。
能調整的架構參數,就叫做超參數。參數,則是模型需要通過訓練資料學習的。
找出參數過程,就是模型訓練