開源項目推薦
kaito
kaito 是由微軟開源并托管于 GitHub 的項目,旨在自動化在 K8s(主目前支持 Azure AKS)中部署與管理大型語言模型(如 Falcon、Phi?3、Llama)推理及微調工作負載。它通過定義 CRD(Workspace),自動完成 GPU 節點調度、容器化模型管理、預設硬件配置和多種推理運行時(如 vLLM、transformers)的支持,并新增基于 LlamaIndex + FAISS 的 Retrieval?Augmented Generation(RAG)功能以實現知識檢索能力。
Cleaner
Cleaner 是一個 K8s 控制器(Controller),用于自動識別并刪除無效、孤立或不健康的 K8s 資源(包括標準資源和自定義 CRD),通過自定義調度(Cron)、標簽篩選和 Lua 腳本規則靈活定義清理策略;項目提供豐富的默認政策(檢測舊 Job、未使用的 ConfigMap/Secret、過期 PVC、過時證書、無效 Ingress 等),支持 Dry?Run 安全測試,并能通過 Slack、Teams、Discord、Telegram、SMTP 或 K8s 事件報告發送清理通知,幫助保持集群高效、整潔和穩定。
Katib
Katib 是 Kubeflow 項目中的 K8s 原生 AutoML 組件,專注于自動化 超參數調優(Hyperparameter Tuning)、早期停止(Early Stopping)及 神經架構搜索。它支持包括 TensorFlow、PyTorch、XGBoost、scikit?learn 等多種 ML 框架,以及 Kubeflow Training Operator、Argo 和 Tekton 等 K8s 工作負載,通過 CRD(Experiment、Trial、Suggestion)定義實驗流程,并提供 Python SDK 和 UI 監控界面,極大簡化模型優化任務。
kubedog
kubedog 是一個為 K8s CI/CD 部署流程設計的開源追蹤庫,用于實時監控 Deployment、StatefulSet、DaemonSet、Job、Canary(來自 Flagger)等資源的狀態與日志輸出,支持 multitracker 模式將多資源組合成統一事件流并生成周期性狀態報告。項目自帶簡潔 CLI(主要為調試用途),但核心功能作為庫被 werf 內部調用,用于實現高級資源部署追蹤,例如自動輸出容器日志、事件消息等,幫助部署過程中快速定位失敗并反饋異常情況。
文章推薦
2025 年的服務網格:從工具到云原生神經中樞
服務網格(Service Mesh ) 作為微服務架構的基礎設施層,通過在每個服務旁邊部署 Sidecar 代理并由控制平面統一下發策略,無需修改應用代碼,就能實現流量管理(如藍綠部署、金絲雀發布、重試與限流)、安全加密(mTLS、身份認證與授權)以及可觀測性(監控、日志與分布式追蹤)。文章指出,到了 2025 年,Service Mesh 正朝著輕量化(如 Istio 的 Ambient Mesh、Linkerd)、跨云與多集群兼容、無代理架構演進以及高性能低資源開銷的方向發展,依然是實現微服務彈性治理、可觀測與零信任安全的關鍵支撐。
觀點:K8s 承諾的可移植性,為何最終讓企業反而被鎖定?
本文討論了 K8s 曾被賦予“云上可移植性”的承諾,然而現實中許多企業卻依賴具體廠商的托管服務、CI/CD 管道、監控、安全策略及數據密集型依賴,反而深度綁定在某個云環境或平臺之中,而真正具備可移植性的應用往往僅為現代化、容器化、運行松耦合的少數項目。文章指出,與其追逐普遍性的“隨處遷移”幻想,更應進行有意圖的鎖定選擇,識別關鍵 workloads、評估退出成本,并為部分關鍵應用建立可退出架構,而非將可移植性當成盲目目標。
Docker Compose 進入智能代理時代,新增云 GPU Offload 支持
本文介紹了 Docker 在 2025 年 7 月推出的新特性:Docker Compose 支持在 compose.yaml 中聲明智能代理(agents)、模型(models)和 MCP 工具,開發者只需運行 docker compose up 即可構建并運行多代理系統,支持與多種代理框架(如 LangGraph、Embabel、CrewAI、Vercel AI SDK、Spring AI、Google ADK、Agno 等)集成,同時 Docker 推出云端 GPU 執行服務 Docker Offload(Beta),允許開發者將大型語言模型和復雜代理任務無縫卸載至云端 GPU,簡化部署流程、緩解本地計算資源瓶頸。
云原生動態
Telepresence 2.23 版本發布
Telepresence 是一個開源工具,旨在幫助開發者在本地開發環境中高效調試和測試運行在遠程 Kubernetes 集群上的微服務。它的核心目標是在不破壞實際運行環境的前提下,讓開發者可以將本地代碼、IDE、調試器與遠程服務集群無縫對接,極大提高開發效率與協作能力。
Telepresence?2.23 近日成功發布,帶來兩項核心創新:新增 wiretap 命令,可將容器接收的流量鏡像到客戶端進行調試而不影響原容器,并支持多個客戶端并發查看;其次引入名為 Teleroute 的 Docker 網絡插件,讓通過 telepresence connect --docker 創建的虛擬網絡可被其他容器直接復用,無需復雜的 --network container:… 設置,簡化了本地 Docker 容器與遠程 Kubernetes 集群的連接流程。
Open Cluster Management v1.0.0 發布
Open Cluster Management(OCM) 是一個開源項目,旨在為 Kubernetes 多集群環境 提供集中式的統一管理能力。它支持跨多個 Kubernetes 集群的生命周期管理、策略控制、應用分發與運行狀態監控,是構建企業級混合云和多云基礎設施的重要組成部分。
Open Cluster Management(OCM)于 近期正式發布了 v1.0.0 ,標志著項目進入生產可用階段。此版本帶來多個關鍵改進,包括增強的集群選擇能力(支持 CEL Selector)、新增 About-API 提供集群元數據、引入 Workload Conditions 實現應用狀態更清晰可視化,以及 ManifestWorkReplicaSets 增加 deletionPolicy 實現資源刪除策略控制。同時,核心 API 升級至 v1,支持更多配置選項,如 ClusterClaimConfiguration 等,整體提升了平臺的靈活性、穩定性和可擴展性。
關于KubeSphere
KubeSphere (https://kubesphere.io)是在 Kubernetes 之上構建的開源容器平臺,提供全棧的 IT 自動化運維的能力,簡化企業的 DevOps 工作流。
KubeSphere 已被 Aqara 智能家居、本來生活、東方通信、微宏科技、東軟、新浪、三一重工、華夏銀行、四川航空、國藥集團、微眾銀行、紫金保險、去哪兒網、中通、中國人民銀行、中國銀行、中國人保壽險、中國太平保險、中國移動、中國聯通、中國電信、天翼云、中移金科、Radore、ZaloPay 等海內外數萬家企業采用。KubeSphere 提供了開發者友好的向導式操作界面和豐富的企業級功能,包括 Kubernetes 多云與多集群管理、DevOps (CI/CD)、應用生命周期管理、邊緣計算、微服務治理 (Service Mesh)、多租戶管理、可觀測性、存儲與網絡管理、GPU support 等功能,幫助企業快速構建一個強大和功能豐富的容器云平臺。