-
CLIP / BLIP-3 類「視覺-語言大模型」
? 是什么:讓網絡自己學會“看圖說話”,zero-shot 就能分類、檢測、檢索。
? 能干什么:不寫訓練代碼,直接一句中文 prompt 就把商品圖分成 500 類。
? 落地難度:★☆☆(pip install open_clip_torch,CPU 也能跑)
? 入口:https://github.com/mlfoundations/open_clip
-
Segment Anything Model 2 (SAM-2)
? 是什么:Meta 剛開源的“萬能分割”,視頻里點一下即可追蹤目標。
? 能干什么:直播換背景、工業缺陷區域一鍵摳出,不用逐幀標注。
? 落地難度:★☆☆(PyTorch 權重直接推理,1080Ti 可跑 720p)
? 入口:https://github.com/facebookresearch/segment-anything-2
-
YOLO-World / YOLOv9-Universal「開放詞匯檢測」
? 是什么:YOLO 也能 zero-shot,輸入“紅色安全帽”就能檢測沒見過的東西。
? 能干什么:工地攝像頭今天想查“未戴絕緣手套”,改行文本即可,不用重訓。
? 落地難度:★★☆(需 GPU 轉 ONNX,邊緣用 RKNN 量化)
? 入口:https://github.com/AILab-CVC/YOLO-World
-
自監督 + 少樣本工業缺陷檢測(Diffusion + Memory Bank)
? 是什么:用 5 張 OK 圖就能學出“異常”,無需缺陷樣本。
? 能干什么:手機背板劃痕、布料臟點實時檢,省掉千級人工標注。
? 落地難度:★★☆(開源模型 + 10 行微調代碼)
? 入口:https://github.com/openvinotoolkit/anomalib
-
單目深度估計「Depth Anything V2」
? 是什么:一張普通照片就生成 0-10 m 稠密深度圖,誤差 < 5%。
? 能干什么:給 AR 導覽、機器人避障當“廉價 LiDAR”,成本 0 元。
? 落地難度:★☆☆(pip install depth-anything,ONNX 僅 30 MB)
? 入口:https://github.com/DepthAnything/Depth-Anything-V2
-
高光譜「偽」實時分析(RGB → 512-band 重建)
? 是什么:AI 把普通相機 RGB 插值成 512 波段“超光譜”,能看水分、糖分、藥殘。
? 能干什么:果園無人機飛一圈,立刻出“糖度分布熱圖”,無需 30 萬高光譜相機。
? 落地難度:★★★(需標定一次+GPU 推理,但硬件 0 額外成本)
? 入口:https://github.com/StaRainJ/HyperRecon
好!