近半年來,公有云領域頻頻發生阿里云、滴滴等平臺崩潰事件,與此同時,馬斯克的“X 下云省錢”言論引起了廣泛關注,一時間,“上云”和“下云”成為熱議話題。在最近舉辦的 AutoMQ 云原生創新論壇上,AutoMQ 聯合創始人兼 CEO 王小瑞作為圓桌主持人,與 AutoMQ 聯合創始人兼 CSO 章文嵩、貝聯珠貫創始人兼 CEO 林昊(畢玄)兩位技術大咖,圍繞上云與下云的趨勢之爭,以及面臨的挑戰展開思想碰撞。本文根據現場對話總結整理,完整錄屏可以在視頻號“AutoMQ”或者B站“AutoMQ官方賬號”觀看。
Q1:云廠商的營收一路飆升,但同時又聽到各種下云的案例,比如推特下云節省了 60% 的成本,未來趨勢是什么?
章文嵩:我覺得上云肯定是大勢所趨。因為云是給客戶創造價值的,就云計算的本質來說是資源的聚合與復用,通過超賣的方式實現成本的降低,從而幫助客戶實現成本節省,同時也為云廠商創造盈利機會。以一個簡單的例子來說明,原本 A 用戶和 B 用戶分別在白天和晚上使用機器,每個時段都需要花費一個單位的成本。然而,云廠商的出現讓 A 和 B 都不再需要購買機器,而是通過租賃的方式,付給云廠商較低的費用如 0.6,使得云廠商的收入 1.2 超過了 1 個單位的成本,實現了盈利,客戶也省錢了。通過錯峰使用,A 用戶和 B 用戶仍然可能沒有消耗掉全部的計算資源,云廠商有機會還能將未使用的資源賣給其他用戶,實現了資源的高效復用。另外還有研發資源的復用,隨著系統規模的增大,邊際成本降低,云計算成為一個能夠持續創造價值的解決方案。比如美國的一份報告說明,在所有的 IT 支出里面,2022 年美國云計算的滲透率將近 10%,而 Gartner 預測到 2026 年,這一比例將上升至 20%。在中國,盡管 SaaS 行業發展尚未成熟,但 IaaS 和 PaaS 模式已經在云廠商中得到廣泛應用。以阿里云為例,過去兩年一直保持盈利,阿里云所有云資源的收入加在一塊,大概是一年 1000 億左右,阿里云市場份額占比 30%-40%,整個中國云市場的規模約為 3000 億。通過工信部公布的中國整體 IT 行業的收入 10 萬億,可以得知中國云市場滲透率大概 3% 。當然中國未來 SaaS 空間會很大,所以美國如果四五年后達到 20% 的云滲透率,那中國有可能到 10% 以上的滲透率,未來 50% 甚至 70% 以上的滲透率,所以我覺得上云是大勢所趨。
畢玄:創業后,我接觸到了更真實的情況。以前代表阿里云拜訪客戶時,客戶因我可能促使他們購買更多阿里云產品而避免說實話。現在作為中立方,客戶更愿意分享真實想法。從整體趨勢上來看,我堅信云計算有巨大增長空間。盡管中國云市場增速下降,甚至阿里云是比前兩年有下滑,但這有很多綜合原因,總體上我覺得云肯定還會繼續增長。許多公司衡量云成本的方法很簡單,即比較線下機器支出和搬到云上的費用。但考慮到人工成本,難以簡單對比。大公司即使遷移到云上,人工成本仍然存在,因基礎設施管理人員短期內難裁員。我之前跟某互聯網頭部公司的人聊到底是要往云上搬,還是繼續保持自建的話題,核心還是要搬到云上,充分發揮云的彈性,而不是靜態使用。純靜態用對大公司來講成本難以平衡。彈性使用云,尤其是按量計費,就像現在中國按量計費比包年包月其實單價貴很多。在折扣談判中,按量付費和包年包月分開談,通常包年包月方案能獲得更低的折扣,因為按量收入不確定性較大。另外一個問題是中國的按量錯峰效應不夠明顯,云廠商對此不太熱衷。盡管按量計費可能增加成本,但之前通過推演,我們發現在折扣談判后,每天使用 8 小時左右能夠實現成本打平。一些大公司進行了假設推演,從線下切換到按量計費和完全彈性系統,能顯著節省成本。然而,由于技術改造較多,很多公司不愿采用這種方式,但我認為這是技術的趨勢,很多公司一定會越來越彈性。對于大部分中小企業而言,云計算的靈活性比成本更為重要,因此它們更自然地采用云服務。從成本角度來看,隨著技術的演進,整體用云的成本將逐漸降低,比自建更具優勢。同時,云計算的應用不斷增加也是因為壁壘的存在。在 AI 時代,大多數企業首選使用云而不是自建,因為自建的門檻較高,而云服務為業務快速創新提供了重要支持。
章文嵩老師補充 : 云廠商的核心追求指標是超賣率,因為超賣率是能夠真正提高整個業務的經營效率。如果客戶愿意購買包年包月,但又因為在一年 365 天中,很多時間客戶并不需要使用這些資源,實際上增加了云廠商的利潤。關鍵在于客戶要有彈性,根據需求變化使用云,以節省成本,而不是根據峰值去保留資源。在上云方面,我這邊是有個規模公式的,當基礎設施規模較小時,在云上購買資源非常便宜;但隨著基礎設施規模的增大,成本上升的速率略有增加。自建的成本雖然一開始較高,但隨著規模的增大,其斜率逐漸降低。兩種模式的斜率不同,必然存在一個交叉點。在這個交叉點左側,規模較小的情況下,使用云的成本較低,而自建的成本較高。然而,當規模超過一定閾值時,由于自建的起點較高但斜率較低,自建可能更加劃算。云廠商針對交叉點右側提供讓利打折的機會,因為對于云廠商來說,已經投入的人力和各方面成本會隨規模的進一步擴大而降低,使得邊際成本更低。回到 Twitter 事例,Twitter 原來有三個數據中心,波特蘭、Sacramento 和亞特蘭大,應該做了類似的三活。馬斯克挑戰團隊在僅六天內把三個數據中心縮減為兩個節點,結果在平安夜他與工程師們直接關閉了位于 Sacramento 的一個數據中心,通過貨車把服務器拉到波特蘭數據中心。現在應該是雙活架構,波特蘭數據中心的服務器就富裕出來,把云上的資源優化并遷移了一部分到波特蘭數據中心中,這一舉措實現了約 10 億美元的巨額成本節約,但他更多的成本節約主要來自人力資源方面。將員工數量從 8000 人裁減至 2000 人,美國工程師平均年薪 30 萬美元,裁員的工資節約了近 18 億美元,所以在總體運營成本上取得了顯著的 60% 節約。然而,有些文章直接寫 Twitter 下云節省 60% 了云資源成本,媒體的這個表達不正確,也容易誤導觀眾。
Q2:云計算巨頭都曾發生過大規模故障,公有云不穩定?
**章文嵩:**作為曾在阿里云工作多年的前員工,我找相關同學了解到,故障的根本原因在于一個全局鑒權服務存在軟件缺陷,導致正常鑒權請求被拒絕,而且沒有很好的故障恢復預案。雖然有時候故障不可避免,但云廠商確實還有很多改進空間。首先,像全局依賴的中心系統應該是多區域多活的。當一個區域發生故障時,不應該影響其他區域的服務,流量應該迅速轉移到其他可用的區域。這種架構可以最大程度地減少單點故障帶來的影響。另外,即便是軟件缺陷,我們也需要有充分的預案。在多個區域同時因為軟件缺陷而宕機時,我們應該能夠快速將其重啟并拉起,以縮短止損時間。另外,提前演練這些預案是至關重要的,當觸發潛在的軟件缺陷時,有了相應的預案,一旦出現問題,重啟就能夠快速恢復服務。而不是在事發現場去查找問題,浪費寶貴的時間。另外,我認為云廠商也會因為這些不可靠的故障而承擔一定代價的。通常,云廠商們都會按照一定的規則進行賠付,一般是不可用時長大概是 100 倍賠付規則,他們也會不斷改進,避免再次陷入相同的故障。我相信隨著云技術的不斷改進,云系統會變得越來越可靠。云廠商的技術能力和系統可靠性在各方面都遠遠高于自建系統。一般情況下,自建系統可能規模較小,故障發生時都不太引人注意,但云廠商由于有大量客戶在上面使用,故障的影響就更加顯著。然而,正是因為有這么多的客戶在不斷使用云服務,云系統會得到更多的錘煉,變得越來越可靠。而且一定會比自建的系統可靠性高非常多倍,這是毋庸置疑的。
畢玄:對于故障問題,我認為云廠商相對來說故障次數要比自建系統更少。但云廠商通常因為集中化的特性,一次故障的影響面較大。相比之下,自建系統的故障可能并不為人所知,實際上累積的故障次數比云廠商會更多。總體而言,我認為用云是更好的選擇。這實際上是一個自有團隊的問題。許多公司還會選擇使用云廠商 PaaS 的服務,因為很難找到具有專業技能的人才。在中國,從事基礎設施技術的工程師數量相對較少,人才儲備有限。這類人才通常待遇較高,我接觸到的很多中小型客戶群體,他們希望由專業公司提供服務,而不是自己搭建,因為自己搭建的話,一方面做不好,另一方面人才難以留住,這是一個非常現實的問題。因此,我認為在這些方面,云廠商的壁壘會越來越高。至于穩定性這個話題,沒人敢說永遠不會發生故障的。實際上,所有云廠商都曾出過嚴重的故障,沒有一家例外,只是影響的程度取決于客戶規模的大小。有時候我們會看到,阿里云發生故障時,有人回應說另一家云更好,也有人回應說另一家云可能存在更多問題,只是你不知道而已。總的來說,我相信云廠商的人才密度會更好,因此我也認為使用云服務總體上會更安全、更穩定。
Q3:如何做云上的成本治理,最優路徑是什么?
**畢玄:**從我接觸的一些客戶來看,許多企業在遷移到云平臺后往往對云成本一無所知,尤其是大型集團公司。相較于繁瑣的 IDC 流程,云的便利性導致一些公司對于機器的創建者和用途一無所知。因此,首次遷移到云上時,許多公司可能簡單地將資源放上去,但缺乏對資源創建和用途的了解。這可能導致付費后公司在月底賬單出來時才發現一些資源的存在,無法追溯。盡管這些費用必須支付給云廠商,但實時監控賬單變化對成本管理至關重要。另外,我們認為在云上有很多復雜的用法,而許多公司目前還無法很好地應對。例如,資源包是一種優化成本的方式,實際上,在采購資源包的情況下,可能比原來的折扣更便宜。資源包的本質是為你提前準備好一些資源,當然,這需要一些算法,但技術含量并不是很高。有些公司購買存儲資源包,就像購買手機流量一樣,預先準備了一定量的資源,而這個資源在購買后必須在下個月內使用,否則不能退款。但如果公司確信能夠充分利用這些資源,那么這筆錢肯定比折扣更便宜。我們知道對于很多公司來說,更省錢的方式是大量啟用彈性化的機制,就像許多公司采用無服務器架構(Serverless)的方式一樣。當然,這涉及許多新技術的投入,在一些公司中推動這一點可能并不那么容易。雖然這可以大幅降低成本,但要將其推廣并真正應用到實踐中是一項龐大的工程。相比之下,之前提到的改變采購策略、調整策略等相對來說更為簡單,只需要進行一些調整即可。此外,公司還需要了解成本結構。在過去,成本分析可能并不被認為是非常重要的事項,但我們最近與一些金融、汽車等行業的客戶進行合作時發現,他們非常關心集團公司的資金花在哪些部門,這些部門的業務情況,比如與業務 ROI 是否對齊。我們提到 IBM 之前收購的一家公司,主要做是做成本分析和分攤,以及與業務掛鉤。例如,如果一個業務的目標是每日活躍用戶(DAU),它將查看 DAU 的增長情況以及當月的 IT 支出變化情況,如果沒有達到預期,管理層將進行問責。因此,這種產品在國外非常受歡迎。在中國,企業逐漸關注業務狀態,對 ROI 等因素越發在意。對于 IT 結構,我將其分為業務系統、大數據和人工智能(AI)三類。業務系統的優化方案往往與業務方的具體情況緊密相關,涉及較大的實施代價。而大數據和 AI 在降成本方面展現出通用方案的可能性,這也是我們公司(貝聯珠貫)主要專注的領域。在大數據方面,我們公司產品能幫客戶降低 30%-40% 成本,AI 方面雖然目前降成本效果有限,但通用方案已實現 10% 的成本降低。總體而言,大部分公司目前最大的 IT 投入是業務系統,而大數據和 AI 投入較大的主要是頭部公司。盡管大數據和 AI 很熱門,但在 IT 支出上占據更高比例還需要時間。因此,我認為業務系統優化應根據實際情況進行。
**章文嵩:**我有一個想法,除了明確成本,更重要的是將其與公司業務深度結合。以淘寶為例,作為一個買賣交易平臺,其核心是交易。我們是否能算出每一筆交易的 IT 支出?比如通過計算一個月內的所有 IT 支出以及完成的訂單數量,我們可以得知每一筆交易的成本。對于滴滴這樣的出行平臺,同樣適用。它是一個撮合交易的平臺,供需匹配也是其中的一環。我們可以計算每一筆交易的平均成本是多少錢。對于視頻網站,觀眾每分鐘觀看視頻,我們花費了多少錢呢?這實際上是可以提煉出來的,將其與業務深度結合,老板們更容易理解。比如,淘寶的客單價是多少?假設是 200 多塊錢。而我們只花了幾分錢的 IT 成本。其中的成本結構是什么樣的?是誰支付的?過去與現在相比,哪些地方可以不斷優化,持續降低運營成本?另一方面,例如從單活變為雙活,這是增加的新投資,所有這些都需要清晰闡述。實際上,將成本結構與業務深度結合,不僅有助于運營優化,而且對于公司的客戶溝通也非常有幫助。我在淘寶和滴滴的經驗告訴我,通過將賬單與核心業務本質結合,管理者能夠清晰地理解 IT 成本和業務的關系。這確實是一種非常有效的方法。
Q4:如何確保系統的最終成本與業務保持一致?
章文嵩: 彈性是最關鍵的,系統能不能有隨著業務需求進行彈性的能力?因為任何一家公司的業務需求都不是全天候平穩的,會有早晚高峰,甚至午休時的購物高峰。因此,如果我們按照需求曲線的最高點來分配資源,顯然是不劃算的,因為我們會為閑置的資源花費大量的資金。最理想的情況是,根據需求曲線的波動,我們的花費能夠完全匹配需求曲線下的面積。實際上,這需要彈性,而彈性的能力并非易事,需要有一些共性的組件。如果每家公司都自己做彈性,涉及研發的方方面面,需要大量投入。然而,不同的企業,比如 A 企業和 B 企業,在彈性方面需要的一些公共組件是相似的。如果有一家企業已經實現了這些組件,那么 A 企業和 B 企業可以復用,這提高了效率。同時,做這些組件復用的企業也能夠獲利,因為它可以服務多家客戶。每家公司實際上只需在某些模塊上進行彈性改造,而不必對所有東西都進行改造。比如,像我們 AutoMQ 云原生的 Kafka,它在第一天就天然具備彈性,能夠隨著業務規模或云數倉自動伸縮,這樣的組件是非常好的云原生創業機會。在云上部署時,為了獲得彈性,我們要盡可能地復用一些標準組件,這對研發方面的投入是最低的,效率是最高的。當然,像之前提到的 Spot 實例,由于它們的特點是云廠商的庫存資源,價格較低,但這樣的 Spot 實例是隨時可能被回收的。因此,如果應用程序能夠適應,可能采用無狀態的 Serverless 架構是一個解決方案,即使被回收了也沒關系,其他地方可以接管過來。這實際上對應用程序提出了更高的要求,但在一些情況下,利用 Spot 實例這樣的資源是可行的。
**畢玄:**以前我在阿里帶中間件團隊的時候,我們一直在找降低成本的方向。給管理層匯報對于我們來說是一個很重要的任務,因為要說服管理層進行技術投入是非常重要的。從 2017 年左右,成本就成為我們的核心議題。就像正明(章文嵩)剛剛提到的,高層看待成本的指標就是——阿里的 1000 筆交易成本,也就是每完成 1000 筆交易,今年花了多少錢,明年花多少錢,后年花多少錢,他們只會問你這個問題。至于成本背后的含義,你可以有很多種理由,比如解釋成本高的原因是我前面有一群人,交易效率不行,他們要更多的精細化運營等等,所以導致我要投更多機器。老板不會關心這些東西,他只關心你到底怎么給我降下去,方案是什么?所以過去我們在這方面每年都受到很大的挑戰,這種偏業務型的指標確實挺好。此外,現在實施成本控制的方案,我認為在云上,彈性一定是永遠的第一方案。因為你要回答高層的另一個問題,成本到底做到什么叫合理?如果你解釋不清楚這個問題,那這個成本就永遠都可以降,對老板來講你覺得投 10 億合理,老板說 10 億太多,投 1 億,這個是要有邏輯的,你需要向老板證明,如果我們每天的業務請求量是這樣的,我所需的成本就是這個請求量覆蓋的面積,這筆錢是必須花的。以前我們做中間件,這就是成本優化能做到的極致。這個極致從現在的技術表現上來看就是 Serverless,只不過 Serverless 現在要做到偏在線型的應用,全部 Serverless 化還是有相當大距離的。我們在阿里曾經推演過,如果我們只為面積付費,我們單筆交易成本應該能降到現在的 1/10。所以按照這個你推演了一個極致,老板每年就對你都不滿意了,因為老板按照我們的邏輯推演后認為,成本應該降到現在的 1/10 才是合理的。我們明白技術上存在各種問題,所以現在 Serverless 肯定是大趨勢。然而,觀察當前的 Serverless,主要由云廠商和中立廠商提供,為大家設計了通用的 Serverless 方案。在這個 Serverless 的背后,可能是采用了按量付費的機器,很多創業公司和國外的成本優化公司采用類似的邏輯,先將應用投放到 Spot Instance 上運行,然后不夠了再切換到按量付費,最后才考慮包年包月。這三層邏輯關系在國外為什么能夠實現折扣券的存在呢?我們認為是因為國外許多應用的整體 IT 水平相對更高,業務的無狀態能力更強,更容易進行遷移。在大數據和人工智能領域,許多公司背后都是通過大量使用這種邏輯來實現的,實際上,他們屏蔽了這一切,不需要你知道 Spot、按量、包年包月的背后邏輯,他們將這些邏輯完全封閉,賣給你時你覺得價格更便宜,但實際上他們仍然具有競爭優勢。在這三層邏輯基礎上,我們覺得是還可以加另外一個邏輯的,另外一個邏輯就是我們以前在阿里做的混部。在很多公司推行這個方案時,我們采用了類似國外公司的彈性策略,先 Spot,再按量,再包年包月。我們的邏輯是先混部,再 Spot,再按量,最后是包年包月。這是因為混部相當于價格是 0,而 Spot 實例是需要支付費用的。另外,Spot 實例的回收可能會導致問題,因為云廠商可能會多次回收實例。我們曾有客戶經歷被回收了 10 次,而其任務需要連續兩個小時完成,無法中斷。并非所有任務都支持斷點功能,因此它如果兩個小時之內被收回掉了,再購買一個 Spot Instance,在重來了 10 次以后它那個價格比按量和包年包月還高,所以這個時候你要處理很多亂七八糟的問題,包括跟云廠商,甚至有商務談判等等,這種都不一定是技術問題。所以我們認為,實際上在技術層面,如果你按照這個方案推進,選擇一個第三方或者具有研發投入能力的公司,我們覺得也可以自己投資。我們與一家大型公司合作,按照這個邏輯進行四層彈性方案,就像我剛剛說的混部 -Spot- 按量 - 包年包月,他們實施了這個方案,一年應該省下近 3000 萬,按照這個方案推進,當然這可能需要一些業務投入。
Q5:對既有自建機房又使用云資源的大型互聯網公司(小紅書、快手)的建議?自建機房需要哪些組織能力和團隊建設能力?
**章文嵩:**自建的基礎設施服務需要相應的研發投入。之前提到的自建和云服務的成本的交叉點,云廠商可以通過讓利來提高吸引力。比如以一個擁有 5 萬臺服務器的互聯網服務為例,考慮到硬件、托管和網絡帶寬資源等成本,每臺機器年均花費約 2 萬元,總計約 10 億元。然而,自建還需要額外投入構建分布式系統、操作系統和數據庫等,以及維護一個六七百人的研發團隊,人員成本高達 5 億。對比阿里云的規模,其年收入約 1000 億元,阿里云應該是 2 萬人,人員的成本估計要花掉 200 多億,機器成本約占據 6、700 億元,毛利約 300 億元。如果扣除市場營銷、人工成本費用,這個業務還是賺錢的,賺的不多,200 多億人員成本對應一年六七百億基礎設施支出,阿里云是很有規模優勢的,還有產品服務豐富度的優勢。對于規模較大的互聯網企業,比如 5 萬臺、10 萬臺機器,云廠商應對于這種體量的互聯網用戶,應該用這樣的策略,了解他的成本結構,給他一個無法拒絕的 Offer。比如云廠商知道企業自建的成本結果是 15 億,給企業 12 億元的價格。這樣對云廠商來說,規模采購會有一些成本的節約。此外,對于人員成本,如果云廠商能夠保持較低的增長,尤其是在已有研發基地的情況下,也可以在整體利潤中獲得優勢。所以,自建的成本很高且對社會無益,因為云廠商已經做得比自建要好。除非你的體量能達到百萬臺的機器規模,那就自建。
**畢玄:**正如正明(章文嵩)所指出的,自建成本是許多公司在構建基礎設施時面臨的重大挑戰。小紅書等公司目前仍主要依賴云服務,這僅是考慮中的一種方案。相比之下,快手采用了大量自建,而云廠商若能真正影響中國頭部互聯網公司,其增長將是顯著的,因為頭部公司基本上都未完全遷移到云上。即便是頭部互聯網公司,如快手、美團、滴滴,雖然主要是自建基礎設施,但也在一定程度上使用云服務。然而,這幾家公司已經是中國頂級的互聯網公司了,但自建團隊仍然是一個復雜的問題,需要體系化的團隊,而不僅僅是雇傭一兩個人,還有 IDC 選址、服務器、網絡、芯片等多方面的人才需求等問題。自建機房遇到的第一個問題是招不到人,即便明確知道需要招聘哪些人才,但實際面臨的招聘難度非常大。以操作系統為例,擁有這方面經驗的人才相對稀缺,而且他們多分布在大型科技公司中。招聘這些人不僅難度大,而且在大型科技公司中跳槽也相對困難。這些公司規模龐大,面臨的問題多,因此有更大的發展空間。總體而言,這些公司雖然有足夠的財力和意愿進行自建,但實際的執行過程非常痛苦。這凸顯了人才密度是一個關鍵問題,不僅在中國,在國外也是一個有限的資源。
結束語
圓桌對話環節在意猶未盡中畫上圓滿的句號,三位大咖對話涵蓋了上云趨勢、系統可靠性、成本治理以及下云挑戰等關鍵議題。為業界提供了深刻的見解和實踐經驗。由章文嵩與王小瑞老師創立的 AutoMQ 公司的 AutoMQ Kafka RC 版本發布了全新特性,包括多云兼容性適配,Spot 實例強制回收容災、裸設備 WAL 等。也帶來了新版本的全新指標,新版本除了有十倍的成本優勢外,支持 4 分鐘內完成從 0 到 1GiB/s 的極致彈性,同時在追趕讀的場景下有讀寫隔離的天然優勢。AutoMQ 即將發布完整的基準測試白皮書,將會揭秘更多的技術指標。歡迎大家體驗!
END
關于我們
AutoMQ 是一家專業的消息隊列和流存儲軟件服務供應商。AutoMQ 開源的 AutoMQ Kafka 和 AutoMQ RocketMQ 基于云對 Apache Kafka、Apache RocketMQ 消息引擎進行重新設計與實現,在充分利用云上的競價實例、對象存儲等服務的基礎上,兌現了云設施的規模化紅利,帶來了下一代更穩定、高效的消息引擎。此外,AutoMQ 推出的 RocketMQ Copilot 專家系統也重新定義了 RocketMQ 消息運維的新范式,賦能消息運維人員更好的管理消息集群。
🌟 GitHub 地址:https://github.com/AutoMQ/automq-for-kafka
💻 官網:https://www.automq.com
👀 B站:AutoMQ官方賬號
🔍 視頻號:AutoMQ
👉掃二維碼加入我們的社區群
關注我們,一起學習更多云原生干貨