AI探索筆記：淺談人工智能算法分類

人工智能算法分類

這是一張經典的圖片，基本概況了人工智能算法的現狀。這張圖片通過三個同心圓展示了人工智能、機器學習和深度學習之間的包含關系，其中人工智能是最廣泛的范疇，機器學習是其子集，專注于數據驅動的算法改進，而深度學習則是機器學習中利用多層神經網絡進行學習的特定方法。
在這里插入圖片描述
但是隨著時代的發展，這張圖片表達得也不是太全面了。我更喜歡把人工智能算法做如下的分類：

傳統機器學習算法 - 線性回歸、邏輯回歸、支持向量機等
深度學習 - 神經網絡、AlexNet、UNet等
強化學習 - Q-Learning、SARSA、DQN等
大模型 - GPT、LaMMa、DeepSeek等

如此分類的理由，傳統機器學習算法，發展了很多年，我們可以把感知機看作是線性分類，原理實際上和線性回歸是一樣的。而神經網絡的神經元，可以認為是一個感知機。所以，可以認為深度學習是從傳統機器學習算法中逐漸發展出來的。而強化學習，原本也可以認為是傳統機器學習的一個分支，但它也有自己的發展方向，逐漸的，它又可以和神經網絡結合，來解決更復雜的問題。于是，就出現了深度強化學習。大模型，嚴格意義上來說，不能認為是一個獨立的分支，它是一個復合體，期中包含了深度學習，也包含了強化學習，除此之外，它還包含了一系列工程學方法。大模型實際上，已經不僅僅是算法，還有如何把算法落地的硬件和軟件的實施方案。

傳統機器學習算法

傳統機器學習算法是指在深度學習興起之前廣泛使用的統計學習和機器學習方法。這些算法通常基于明確的數學模型和優化目標，適用于處理結構化數據和解決特定類型的問題。
線性回歸（Linear Regression）：用于預測連續變量的算法，通過建立自變量和因變量之間的線性關系來預測結果。
邏輯回歸（Logistic Regression）：用于分類問題的算法，通過 logistic 函數將線性組合的輸出映射到概率值，常用于二分類問題。
支持向量機（Support Vector Machine, SVM）：一種強大的監督學習方法，用于分類和回歸分析。SVM 通過尋找最優超平面將不同類別的數據分開，具有良好的泛化能力。
決策樹（Decision Tree）：一種基于樹形結構的分類和回歸算法，通過一系列特征測試將數據分割成不同的類別。
隨機森林（Random Forest）：一種集成學習方法，通過構建多個決策樹并綜合其結果來提高預測準確性。
K-近鄰算法（K-Nearest Neighbors, KNN）：一種基于實例的學習方法，通過尋找與測試樣本最相似的訓練樣本進行分類或回歸。
樸素貝葉斯（Naive Bayes）：一種基于貝葉斯定理的分類算法，假設特征之間相互獨立，常用于文本分類和垃圾郵件過濾。
K-均值聚類（K-Means Clustering）：一種無監督學習方法，用于將數據集劃分為 K 個簇，使簇內數據相似度高，簇間相似度低。
算法特點
這些傳統機器學習算法各有特點，適用于不同的數據類型和問題場景。
它們通常需要對數據進行預處理和特征工程，以提高模型的性能。
相較于深度學習，傳統機器學習算法通常計算效率更高，解釋性更強。
應用領域
傳統機器學習算法在金融、醫療、市場營銷、自然語言處理等多個領域都有廣泛應用。
它們常常作為基準模型，用于比較和評估深度學習模型的性能。
傳統機器學習算法包括線性回歸、邏輯回歸、支持向量機、決策樹、隨機森林、K-近鄰算法、樸素貝葉斯和K-均值聚類等。這些算法在不同的數據類型和問題場景中具有各自的特點和優勢，廣泛應用于金融、醫療、市場營銷等多個領域。
作為IT從業者，如果是盯著前沿領域，實際上可以不用去看這些傳統算法。但出于學習目的，也是為了避免忽視一些簡單但重要的東西。這些傳統的算法，在現代社會還有用武之地嗎？實際上，還是有的，可以考慮其他學科。
例如，在人文社科領域，傳統機器學習算法如邏輯回歸被廣泛應用于教育研究，通過分析學生的基本特征與學習成績之間的關系，識別影響學生成績的關鍵因素，從而為教育政策和教學方法的制定提供數據支持。

深度學習算法

深度學習是一種機器學習技術，它模仿了人類大腦中神經網絡的工作方式，以通過數據學習復雜的模式和特征。
神經網絡（Neural Networks）
基本概念
神經元（Neurons）：基本的計算單元，類似于生物大腦中的神經元。
層（Layers）：神經網絡中的神經元被組織成不同的層，包括輸入層、隱藏層和輸出層。
權重（Weights）和偏置（Biases）：每個神經元都有與之相連的權重和偏置，這些參數在訓練過程中被調整。
激活函數（Activation Functions）：用于給神經元引入非線性特性，常見的有Sigmoid、ReLU、Tanh等。
類型
前饋神經網絡（Feedforward Neural Networks）：信息單向流動，從輸入層到輸出層。
遞歸神經網絡（Recurrent Neural Networks, RNNs）：具有循環結構，適合處理序列數據。
卷積神經網絡（Convolutional Neural Networks, CNNs）：特別適合處理圖像數據。
AlexNet
簡介
AlexNet是2012年ImageNet競賽的獲勝者，由Alex Krizhevsky等人提出，是深度學習在圖像識別領域的一個重要突破。
架構特點
卷積層（Convolutional Layers）：使用卷積層來提取圖像特征。
最大池化層（Max Pooling Layers）：減少特征的空間維度。
歸一化層（Local Response Normalization）：對特征進行歸一化處理。
全連接層（Fully Connected Layers）：在網絡的最后幾層，將卷積層提取的特征進行組合。
Dropout：防止過擬合的技術。
UNet
簡介
UNet最初用于生物醫學圖像分割，由于其精確性和效率，它在許多任務中都得到了應用。
架構特點
編碼器（Encoder）：包含卷積層和最大池化層，用于特征提取和下采樣。
解碼器（Decoder）：包含上采樣層和卷積層，用于恢復空間信息和特征圖的大小。
跳躍連接（Skip Connections）：編碼器的層直接與解碼器對應的層相連，以保留位置信息。
上采樣（Upsampling）：通常使用轉置卷積（transposed convolution）來增加特征圖的分辨率。
其他深度學習模型
卷積神經網絡（CNNs）
VGGNet：強調使用小的卷積核和深層網絡結構。
GoogLeNet/Inception：引入了Inception模塊，通過不同尺寸的卷積和池化層并行捕獲信息。
ResNet：引入了殘差學習，通過跳躍連接解決深層網絡訓練困難的問題。
遞歸神經網絡（RNNs）
LSTM（Long Short-Term Memory）：解決了傳統RNN在長序列學習中的梯度消失問題。
GRU（Gated Recurrent Unit）：LSTM的變體，結構更簡單。
自編碼器（Autoencoders）
用于無監督學習，特別是特征學習和降維。
生成對抗網絡（GANs）
由生成器和判別器組成，通過對抗過程生成新的數據樣本。
這些模型和架構各有特點，適用于不同的應用場景。深度學習領域持續發展，不斷有新的模型和變種被提出以解決特定問題。
除了這些算法，還有很多深度學習的算法，他們差異在于他們的網絡結構不同。有人說，可以搞幾個全連接層去解決世界上的所有問題。從理論上來說是可以的，但是因為算力和梯度的問題，網絡不一定能訓練出來。一個不太嚴謹的表述，全球的AI研究人員實際上是在“煉丹”，通過不同的配方，設計不同的網絡結構，試圖讓它在某個特定的問題上可以收斂。

強化學習算法

由于強化學習算法眾多，以下是一些主要的強化學習算法，以及每種算法的簡要介紹：
基于值的方法（Value-Based Methods）
Q-Learning
一種無模型的強化學習算法，通過Q表來存儲每個狀態-動作對的期望回報，并迭代更新這些值以達到最優策略。
Deep Q-Networks (DQN)
結合了Q-Learning和深度學習，使用深度神經網絡來近似Q值函數，能夠處理高維輸入空間。
Double DQN
DQN的改進版本，通過兩個網絡來減少Q值估計的偏差，提高學習的穩定性。
Dueling DQN
對DQN的進一步改進，將價值函數分解為狀態值和優勢函數，有助于更有效地學習策略。
Prioritized Experience Replay (PER)
一種經驗回放技術，它根據_td_誤差的大小來優先采樣經驗，以提高學習效率。
基于策略的方法（Policy-Based Methods）
Policy Gradient
直接學習策略函數而不是值函數，通過梯度上升來優化策略以增加期望回報。
REINFORCE
一種基本的策略梯度方法，它使用蒙特卡洛抽樣來估計回報的梯度。
Actor-Critic Methods
結合了策略梯度和值函數方法，其中Actor負責學習策略，Critic負責評估策略。
Advantage Actor-Critic (A2C)
一種同步版本的Actor-Critic算法，可以在多個環境中并行執行。
Asynchronous Advantage Actor-Critic (A3C)
A2C的異步版本，可以在不同的線程中并行訓練，提高了學習效率和穩定性。
Trust Region Policy Optimization (TRPO)
一種策略優化算法，通過限制策略更新的步長來保持穩定性。
Proximal Policy Optimization (PPO)
TRPO的簡化版本，通過裁剪目標函數來防止策略更新過大。
基于模型的方法（Model-Based Methods）
Model Predictive Control (MPC)
一種基于模型的控制方法，它使用環境模型來預測未來狀態，并優化未來的動作序列。
模型無關的強化學習（Model-Free Reinforcement Learning）
Monte Carlo Methods
基于蒙特卡洛抽樣的強化學習算法，通過實際執行策略來估計回報。
Temporal Difference (TD) Learning
一種不需要完整回報序列的強化學習算法，它通過時間差分來更新值函數。
元強化學習（Meta Reinforcement Learning）
Model-Agnostic Meta-Learning (MAML)
一種元學習算法，旨在快速適應新任務，通過找到一組初始化參數，這些參數可以快速適應新任務。
強化學習與其他領域的結合
Reinforcement Learning with Deep Learning
使用深度神經網絡來表示值函數或策略函數，處理復雜的高維輸入。
Reinforcement Learning with Evolutionary Algorithms
結合了強化學習和進化算法，通過模擬自然選擇和遺傳來優化策略。
Reinforcement Learning with Transfer Learning
利用在源任務上學到的知識來加速目標任務的強化學習過程。
Reinforcement Learning with Imitation Learning
通過模仿專家的行為來學習策略，減少強化學習中的探索成本。
這些算法只是強化學習領域的一部分，每個算法都有其特定的應用場景和優勢。隨著研究的深入，新的算法和變體將繼續被開發出來。
說到強化學習，不得不提AlphaGo系列。這一系列由DeepMind公司開發的人工智能圍棋程序，其核心原理結合了深度神經網絡和強化學習。AlphaGo首先通過監督學習從大量的專業圍棋對局中學習棋局模式和策略，這一階段它使用了一個深度卷積神經網絡來預測專業棋手的下一步棋。隨后，AlphaGo通過強化學習進行自我對弈，使用蒙特卡洛樹搜索（Monte Carlo Tree Search, MCTS）來評估和選擇棋步。在這個過程中，AlphaGo的神經網絡被用來預測游戲的結果和指導搜索過程，而強化學習則用于調整神經網絡的參數，以最大化長期獎勵。通過這種結合，AlphaGo不僅學會了圍棋的基本規則和策略，還能夠創造性地發現新的走法，最終在2016年擊敗了世界圍棋冠軍李世石，證明了強化學習在解決高度復雜問題上的強大潛力。
另外，不得不提AlphaGo的繼任者——AlphaZero。AlphaZero是由DeepMind公司開發的一個通用強化學習算法，它不僅能夠掌握圍棋，還能應用于國際象棋和日本將棋等棋類游戲。AlphaZero的核心原理是結合了深度神經網絡和強化學習，但它與AlphaGo有一個顯著的不同：AlphaZero完全通過自我對弈從零開始學習，不需要任何人類的對局數據。
AlphaZero的工作原理可以分為幾個步驟：首先，它使用一個深度神經網絡來同時預測棋局的可能走法、游戲的結果以及策略網絡的價值。這個網絡通過自我對弈不斷改進，不需要依賴人類的知識。在自我對弈的過程中，AlphaZero使用強化學習中的策略迭代方法，其中蒙特卡洛樹搜索（Monte Carlo Tree Search, MCTS）扮演了關鍵角色。
在MCTS中，AlphaZero通過模擬數千次可能的走法來評估當前棋局的每一種可能走法。這些模擬基于神經網絡提供的走法概率和勝率估計。通過這種方式，AlphaZero能夠探索和利用棋局中的各種可能性，并逐漸學會哪些走法更有可能帶來勝利。
AlphaZero的訓練過程是迭代的：它在自我對弈中不斷生成新的數據，然后用這些數據來更新神經網絡的參數。這個過程不斷重復，直到神經網絡收斂到一個能夠高效預測走法和評估棋局的最佳策略。AlphaZero在2017年展示了其驚人的能力，它在沒有人類知識輸入的情況下，僅僅通過幾天的訓練，就超越了之前所有專門的國際象棋和日本將棋程序，包括戰勝了AlphaGo自己。AlphaZero的成功證明了強化學習算法在無需人類經驗的情況下，也能達到甚至超越人類的水平。

大模型

大模型沒有明確的定義，業內共識是指那些擁有數億、數十億甚至更多參數的深度學習模型。參數是模型內部可調整的變量，它們決定了模型對輸入數據的處理方式。大模型的參數規模使得它們能夠捕捉到數據中的復雜模式和細微差別，從而在多種任務上表現出色。
以下是當前業內主流的大模型的綜合介紹，涵蓋國際與中國的主要參與者及其技術特點：

1. GPT系列（OpenAI）

開發者：OpenAI
代表模型：GPT-4o、GPT-4 Turbo
特點：
- 基于Transformer架構，以閉源和商業化應用為主，擅長復雜推理、多模態處理及通用任務。
- GPT-4o訓練成本約1億美元，使用高性能英偉達H100 GPU集群，參數規模未公開但推測超萬億。
- 最新發布的GPT-4o-Mini為輕量級版本，適合低成本場景，但在中文場景和復雜邏輯推理上稍遜于部分開源模型。

2. Llama系列（Meta）

開發者：Meta（原Facebook）
代表模型：Llama3.1-405B、Llama3.1-8B
特點：
- 開源模型中的標桿，以高性能和社區生態著稱。例如，Llama3.1-405B訓練成本超6000萬美元，需超16,000塊H100 GPU。
- 在通用能力評測（如MMLU）中表現優異，但在中文場景、數學推理和復雜對話一致性上落后于DeepSeek等中國模型。

3. DeepSeek系列（深度求索）

開發者：中國深度求索（DeepSeek）
代表模型：DeepSeek-V3、DeepSeek-R1、DeepSeek-Coder-V2
特點：
- 低成本高效能：訓練成本僅557.6萬美元（為GPT-4o的1/20），采用MoE（混合專家）架構、MLA（多頭潛在注意力）機制和FP8混合精度訓練，顯著降低顯存和計算量。
- 性能對標頂尖模型：在數學競賽（如AIME 2024）、代碼生成（HumanEval得分90.2）等任務上超越Llama3和部分閉源模型，通用能力接近GPT-4o。
- 開源策略：完全開源并提供商業授權，API定價極低（輸入每百萬tokens 1元），推動行業價格戰。