當然有!在科學計算、機器學習、圖像處理等領域,scikit-learn
、scikit-image
(skimage)、SciPy
、OpenCV
是非常重要的庫,但它們不是唯一的。以下是一些與它們類似或互補 的項目,按照用途分類列出:
🧠 機器學習類(類似 scikit-learn)
庫名 簡介 適用場景 XGBoost 高性能梯度提升樹(GBDT)庫 結構化數據建模、Kaggle比賽常用 LightGBM 微軟出品的快速GBDT實現 大規模訓練、速度優先 CatBoost Yandex出品,支持類別特征的GBDT 類別數據很多的場景 TensorFlow Google推出的深度學習框架 復雜神經網絡建模 PyTorch Facebook開發,動態圖計算框架 學術研究、CV/NLP Statsmodels 專注于統計建模 回歸分析、時間序列 H2O.ai 分布式機器學習平臺 企業級自動建模
🧮 科學計算類(類似 scipy)
庫名 簡介 功能 NumPy 數值計算核心庫 向量、矩陣、廣播、FFT 等 SciPy 構建于 NumPy 之上 優化、積分、微分方程、信號處理等 SymPy 符號計算(代數計算) 解方程、化簡、符號微分等 Numba JIT 編譯器加速 NumPy 代碼 性能提升,寫原生 Python 即可 CuPy NumPy 的 GPU 版本 GPU 上加速矩陣計算 Theano(已停更) 數學表達式的編譯器 TensorFlow 的前身
🖼? 圖像處理類(類似 scikit-image 和 OpenCV)
庫名 簡介 優勢 scikit-image 基于 NumPy 的圖像處理庫 與 Python 科學堆棧無縫集成 OpenCV (cv2) 全功能計算機視覺庫 圖像、視頻、攝像頭、實時CV Pillow (PIL) 圖像讀寫和簡單操作 輕量且適合初學者 imageio 讀寫圖像/視頻/GIF等 與 Pillow 類似,更通用 PyTorch torchvision 深度學習圖像預處理和模型 與 PyTorch 一起用 Albumentations 圖像增強庫 數據增強功能強大,CV比賽常用 SimpleITK 醫學圖像處理 支持 DICOM、NIfTI 等格式
📊 數據處理與分析(類似 Pandas)
庫名 簡介 場景 Pandas 表格數據處理核心庫 數據清洗、分析 Dask 并行化的 Pandas/Numpy 處理超大數據集 Polars Rust 編寫的 DataFrame 庫 更快的列式處理 Vaex 內存外 DataFrame 用于十億行數據分析 PyArrow Apache Arrow 的 Python 實現 高效序列化、支持共享內存
? 時間序列分析
庫名 簡介 statsmodels.tsa
ARIMA, SARIMA 等 Prophet Facebook 出品的時間序列預測庫 tsfresh 時間序列特征自動提取 sktime scikit-learn 風格的時間序列庫
🧪 自動機器學習(AutoML)
庫名 簡介 Auto-sklearn 自動調參、特征工程、模型選擇 TPOT 基因算法搜索模型流程 H2O AutoML 企業級 AutoML FLAML 微軟的輕量化 AutoML
🔌 其他值得關注的生態工具
工具 用途 joblib
模型存儲、并行計算 matplotlib
, seaborn
, plotly
可視化 mlflow
機器學習實驗管理 optuna
, ray[tune]
超參數優化 huggingface/transformers
NLP 模型庫(BERT、GPT等)