CUDA正是英偉達所有神話的起點。它不是一個產品,而是一個生態系統。當越多的開發者使用CUDA,就會催生越多的基于CUDA的應用程序和框架;這些殺手級應用又會吸引更多的用戶和開發者投身于CUDA生態。這個正向飛輪一旦轉動起來,其產生的引力將是巨大的。
2025年7月,歷史被再次刷新。
2025年7月,歷史被再次刷新。英偉達(NVIDIA),這家由一位熱愛皮夾克的華裔創辦的公司,市值如火箭般沖破4萬億美元的穹頂,將一眾傳統巨頭甩在身后,成為了全球資本市場的絕對核心。
一時間,掌聲、驚嘆聲、泡沫論、質疑聲交織在一起。媒體的頭條被黃仁勛的語錄、驚人的財富效應和AI吞噬一切的宏大敘事所占據。但對于每一個身處產業浪潮中的決策者——無論是投資人、企業戰略家還是技術領袖——真正的問題遠比股價的漲跌更為重要:
支撐這個龐大帝國的,究竟是什么?是那一塊塊被瘋狂搶購的GPU嗎?當AMD、Intel甚至各大云廠商都宣稱擁有自己的AI芯片時,英偉達的“王座”為何看似堅不可摧?4萬億之后,它的增長故事又將如何續寫?
為了尋找答案,我們決定采用一種“老派”但最有效的方法——與真正塑造這個行業的人進行深度對話。硅兔君利用我們深耕硅谷的專家網絡,與數位身處AI戰場最前線的匿名專家進行了交流。他們中,有來自頂級云廠商的AI基礎設施前負責人,有主導大模型訓練的首席架構師,也有在硅谷路上判斷下一個技術風口的頂尖VC合伙人。
現在,請允許我們將這些珍貴的一手洞察為您呈現。這不僅是對一家公司的拆解,更是對一個時代核心驅動力的深度剖析。
01 最深的護城河,藏在看不見的代碼里
當我們問及幾乎所有受訪專家一個相同的問題——“英偉達最核心的壁壘是什么?”時,沒有一個人的答案是“芯片性能”。相反,他們都指向了一個誕生于近二十年前的產物——CUDA。
一位曾在FAANG負責構建AI平臺的資深技術總監,用一個生動的比喻開啟了我們的對話:
“外界最大的認知偏差,就是至今仍將英偉達視為一家硬件公司。這好比認為可口可樂的成功只在于它的瓶子。黃仁勛從2006年正式推出CUDA起,就不是在賣芯片,而是在‘傳教’。他構建了一個‘英偉達教派’,CUDA就是它的圣 經。
今天,任何一個客戶買走一片H100或B200,他支付的不僅是硅片的價格,更是購買了進入這個教派生態的‘門票’。這是一種無形的、卻幾乎所有人都必須繳納的‘生態稅’。”
CUDA(Compute Unified Device Architecture,統一計算設備架構),這個聽起來頗為拗口的名字,正是英偉達所有神話的起點。在GPU還只是游戲玩家的“寶貝”時,黃仁勛就預見性地投入巨資,要將GPU的心臟——成千上萬的并行計算核心——開放給通用的科學和商業計算。
這盤大棋,一走就是近20年。
它不是一個產品,而是一個生態系統。 CUDA不僅僅是一個編程接口,它包含了一整套豐富的、經過高度優化的數學庫(如cuDNN用于深度神經網絡、cuBLAS用于線性代及)、強大的編譯器、直觀的調試工具(如NVIDIA Nsight),以及一個龐大的開發者社區。
它創造了網絡效應的完美范本。 越多的開發者使用CUDA,就會催生越多的基于CUDA的應用程序和框架(如TensorFlow、PyTorch);這些殺手級應用又會吸引更多的用戶和開發者投身于CUDA生態。這個正向飛輪一旦轉動起來,其產生的引力將是巨大的。
今天,全球有超過400萬開發者在使用CUDA。任何一個AI專業的博士生,他的第一行模型代碼,幾乎都是在CUDA上運行的。這形成了一種強大的“肌肉記憶”,從學術界蔓延至工業界,成為了事實上的行業標準。
02 看不見的成本,看得見的壁壘
“既然CUDA這么厲害,那競爭對手,比如AMD的ROCm或者Intel的oneAPI,就不能做一個更好的來替代它嗎?” 這是我們向一位負責大模型訓練的首席AI架構師提出的問題。他笑了笑,反問我們:
“你知道將一個一線大廠的核心AI業務,從英偉達平臺遷移到另一個平臺,真正的成本是多少嗎?它不是采購幾萬片新芯片的硬件費用,而是一張長到令人絕望的‘技術賬單’,其金額可能是硬件成本的數倍,甚至十倍以上。”
在這位專家的幫助下,我們得以一窺這張“技術賬單”的冰山一角:
代碼重構與遷移: 這絕非簡單的“查找-替換”。無數工程師耗費心血手寫的、針對NVIDIA GPU底層優化的計算核心(Kernel),在AMD或Intel的芯片上必須幾乎全部重寫。這其中涉及到的底層硬件架構差異,是外行難以想象的。
性能優化地獄: 即便代碼成功遷移,新的硬件也無法“開箱即用”地達到英偉達平臺的性能。工程師需要花費數月甚至數年的時間,去進行繁瑣的性能調優,解決各種意想不到的bug,才能慢慢“逼近”原來的效率。對于分秒必爭的AI競賽而言,這種時間成本是致命的。
工具鏈的鴻溝: 英偉達提供了如Nsight、NVProf等極其成熟的性能分析和調試工具,能幫助工程師快速定位瓶頸。而競爭對手的工具鏈,在穩定性、易用性和功能豐富度上,仍有數年的差距。這位架構師坦言:“在NVIDIA上一個下午就能解決的問題,在其他平臺上可能需要一周,而且你還不知道問題到底出在哪。”
人才庫的斷層: 一個殘酷的現實是,市場上精通CUDA的工程師數量,可能百倍、千倍于精通ROCm的工程師。對于企業來說,這意味著更高的招聘成本、更長的培訓周期,以及項目延期的巨大風險。
生態的惰性: 像Hugging Face這樣的模型社區,其上絕大多數開源模型都是為NVIDIA GPU預訓練和優化的。當一個團隊想快速驗證一個新想法時,最快的路徑永遠是“下載模型,在英偉達GPU上運行”。
“總結一下,” 這位架構師最后說,“英偉達的護城河,不是它自己挖的,而是過去十五年,全球數百萬開發者用一行行代碼、一次次調試、一個個項目為它構建起來的。想填平這條河,需要的不是錢,而是時間,以及一個同樣龐大且忠誠的開發者軍團。目前來看,沒人做得到。”
03 向上集成:從賣鏟子到賣“淘金工廠”
如果說CUDA是英偉達的“軟件靈魂”,那么其“硬件”的進化策略,同樣充滿了智慧。一位在硅谷20年的頂級VC合伙人,給我們提供了一個獨特的商業視角:
“要理解英偉達的商業模式,你不能只看GPU,你要看它的‘客單價’是如何一步步提升的。這是一個教科書級別的‘向上集成’(Upward Integration)案例。它本質上不是在賣產品,而是在不斷為客戶解決更宏大、也更有價值的問題。”
這位 頂級VC 合伙人將英偉達的戰略描繪成一個四級火箭:
第一級:賣“零件”-GPU芯片。 這是起點。從G80到Fermi,再到今天的Blackwell架構,英偉達始終保持著單卡性能的領先。這是它一切業務的基石。
第二級:賣“設備”- DGX/HGX服務器。 英偉達很快發現,客戶需要的不是8片獨立的GPU,而是一個能讓這8片GPU高效協同工作的“怪獸”。于是,它通過高速互聯技術NVLink和NVSwitch,將GPU緊密耦合,推出了DGX服務器。它賣的不再是零件,而是一臺“開箱即用的AI超級計算機”。客單價從數千美元躍升至數十萬美元。
第三級:賣“生產線”- SuperPOD集群。 當客戶需要訓練千億、萬億參數的大模型時,一臺DGX也不夠了。英偉達通過收購Mellanox獲得的InfiniBand高速網絡技術,將成百上千臺DGX服務器連接成一個龐大的集群,并提供一整套軟件來管理它。這就是SuperPOD。它賣的不再是設備,而是一條完整的“AI模型生產線”藍圖。客單價飆升至數千萬甚至數億美元。
第四級:賣“工廠”- 數據中心級解決方案。 今天,英偉達正在向終極形態邁進。它與云服務商合作推出DGX Cloud,讓客戶可以按需租用一個完整的“AI工廠”。它甚至直接參與到客戶數據中心的設計中。它賣的,是一種“AI能力”本身。
通過這種層層遞進的策略,英偉達將自己從一個芯片供應商,變成了客戶AI戰略中不可或缺的、提供全棧解決方案的“總包商”。每一次集成,都解決了客戶更深層次的痛點,也帶來了更高的利潤率和更強的客戶粘性。
結語
故事到這里,似乎已經足夠傳奇。但對于一個4萬億美元的帝國而言,它的野心遠不止于此。以 NVIDIA AI Enterprise (NVAIE) 為例,它就像是AI時代的“Windows操作系統”。企業購買英偉達的硬件后,可以再為其訂閱NVAIE服務,以換取運行關鍵業務所必需的穩定性、安全性、技術支持和性能保障。
這不僅為英偉達開辟了一個全新的、高利潤的軟件訂閱市場,更重要的是,它將與客戶的關系從一次性交易,變成了長期的服務伙伴。
而當這種“硬件+軟件+服務”的全棧能力被打磨到極致時,它就完美地契合了21世紀最重要的新趨勢之一:主權AI (Sovereign AI)。
一位專注于地緣科技的專家,為我們揭示了英偉達故事的最終章:
“我們正在進入一個‘主權AI’的時代。每一個國家,都將意識到擁有自己獨立的AI基礎設施、自己的基礎大模型、以及由本國數據訓練出的AI,是21世紀國家主權的一部分,就像擁有自己的貨幣和軍隊一樣重要。而誰能為這些國家提供構建‘主權AI’的全套工具?今天,答案只有一個——英偉達。”
這使得英偉達超越了一家商業公司的范疇,它的產品變成了21世紀地緣政治的戰略資源。這不僅為它打開了一個以“國家”為單位的全新藍海市場,更將其業務的確定性和不可替代性,提升到了前所未有的高度。
4萬億美元。這個數字,不是神話,也非泡沫。