Apache 軟件基金會的官方全球系列大會 CommunityOverCode Asia(原 ApacheCon Asia)首次中國線下峰會將于 2023 年 8 月 18-20 日在北京麗亭華苑酒店舉辦,大會含 17 個論壇方向、上百個前沿議題。
字節跳動云原生計算團隊在此次 CommunityOverCode Asia 峰會中深度參與并進行相關主題演講,由 8 位同學圍繞 4 個專題下的 6 個議題,分享 Apache 開源項目在字節跳動業務中的實踐經驗。此外,Apache Calcite PMC Member、Apache Flink Committer 李本超將參與 Keynote 演講,分享參與開源貢獻的經驗與收獲。
?
主題演講
開源貢獻難嗎?
也許很多同學都有想過參與一些開源貢獻,來提升自己的技術能力和影響力。但是理想跟現實之間通常有一些距離:因為工作太忙,沒有時間參與;開源項目門檻太高,不知道怎么入門;嘗試過一些貢獻,但是社區響應度不高,沒有堅持下去。本次 keynote,李本超會結合自己的經歷,分享他在貢獻開源社區過程中的一些小故事和思考,如何克服這些困難,最終在開源社區取得突破,并且在工作和開源貢獻之間取得平衡。
李本超
字節跳動,Flink SQL 技術負責人
Apache Calcite PMC Member,Apache Flink Committer,畢業于北京大學,目前就職于字節跳動流式計算團隊,Flink SQL 技術負責人。
專題演講
專題:數據湖與數據倉庫
基于 Flink 構建實時數據湖的實踐
王正 火山引擎云原生計算研發工程師
閔中元 火山引擎云原生計算研發工程師
演講簡介:實時數據湖是現代數據架構的核心組成部分,它允許企業實時分析和查詢大量數據。在這場分享中,我們將首先介紹實時數據湖目前存在的痛點,比如數據的高時效性,多樣性,一致性和準確性等。然后介紹我們如何基于 Flink 和 Iceberg 構建實時數據湖,主要通過如下兩部分展開:如何將數據實時入湖、如何使用 Flink 進行 OLAP 臨時查詢。最后介紹一下字節跳動在實時數據湖中的一些實踐收益。
講師簡介:王正,于 2021 年加入字節跳動,就職于基礎架構開放平臺團隊,主要負責 Serverless Flink 等方向研發;
閔中元,于 2021 年加入字節跳動,就職于基礎架構開放平臺團隊,主要負責 Serverless Flink ,Flink OLAP 等方向研發。
專題:人工智能 / 機器學習
字節跳動深度學習批流一體訓練實踐
毛洪玥 字節跳動基礎架構工程師
演講簡介:隨著公司業務發展,算法復雜度不斷提升,越來越多的算法模型在離線更新的基礎上探索實時訓練以提升模型效果。為實現復雜的離線和實時訓練靈活編排、自由切換,能在更大范圍內調度在離線計算資源,機器學習模型訓練逐漸趨于批流一體化.本次將分享包括字節跳動機器學習訓練調度框架的架構演進、批流一體實踐、異構彈性訓練等部分內容。并著重介紹在 MFTC(批流一體協同訓練)場景下,多階段多數據源混合編排、流式樣本全局 Shuffle、全鏈路 Native 化,訓練數據洞察等實踐經驗。
講師簡介:于 2022 年加入字節跳動,從事機器學習訓練研發工作,主要負責大規模云原生批流一體 AI 模型訓練引擎,支撐了包括抖音視頻推薦、頭條推薦、穿山甲廣告、千川圖文廣告等業務。
字節跳動 Spark 支持萬卡模型推理實踐
劉暢 字節跳動基礎架構工程師
張永強 字節跳動機器學習系統工程師
演講簡介:隨著云原生的發展,Kubernetes 由于其強大的生態構建能力和影響力,使得包括大數據、AI 在內越來越多類型的負載應用開始向 Kubernetes 遷移,字節內部探索 Spark 從 Hadoop 遷移到 Kubernetes,使得作業云原生化運行。同時搜索有大量 GPU 需求量極大的離線批處理任務,隨著潮汐任務上量,發現一系列問題:GPU 算力供給(卡時數)仍有較大缺口、單機房資源池規模無法匹配業務單位任務計算量增長、在線資源池算力浪費問題、缺乏統一平臺入口。Spark 和 AML(應用機器學習)合作,通過 GPU 共享技術、混部 GPU 調度、Spark 引擎增強,平臺及周邊生態完善等途徑,支持萬張卡混部 GPU 模型推理離線計算,支持作業 80 億多模態訓練數據使用混部 GPU 7k 卡 7.5h 完成模型打分數據清洗,并且資源使用效率、穩定性均得到了顯著提升。
講師簡介:劉暢,于 2020 年加入字節跳動,就職于基礎架構批式計算團隊,主要負責 Spark 云原生方向工作,Spark On Kubernetes 等方向研發;
張永強,于 2022 年加入字節跳動,就職于 AML 機器學習系統團隊,參與構建大規模機器學習平臺。
專題:數據存儲與計算
字節跳動 MapReduce -> Spark 平滑遷移實踐
魏中佳 字節跳動基礎架構工程師
演講簡介:隨著業務發展,字節跳動內部每天線上約運行 120 萬 個 Spark 作業,與之相對比的是,線上每天依然約有兩萬到三萬個 MapReduce 任務。作為一個歷史悠久的批處理框架,從大數據研發的角度來看,MapReduce 引擎的運維面臨了一系列問題。例如,框架更新迭代的的 ROI 較低,對于新的計算調度框架適配性較差等等。而從用戶的角度來看, MapReduce 引擎的使用也存在一系列的問題。例如,計算性能不佳,需要額外的 Pipeline 工具管理串行運行的 Job,希望遷移 Spark 但是存量作業數量多且大量作業使用了 Spark 本身不支持的各種腳本。在此背景下,字節跳動 Batch 團隊設計并實現了一套 MapReduce 任務平滑遷移 Spark 的方案,該方案使用戶僅需對存量作業增加少量的參數或環境變量即可完成從 MapReduce 到 Spark 的平緩遷移,大大降低了遷移成本,并且取得了不錯的成本收益。
講師簡介:2018 年加入字節跳動,現任字節跳動基礎架構大數據開發工程師,專注大數據分布式計算領域,主要負責 Spark 內核開發、字節自研 Shuffle Service 開發。
字節跳動千億文件 HDFS 集群實踐
熊睦 火山引擎大數據存儲研發工程師
演講簡介:隨著大數據技術的深入發展,數據規模和使用復雜度越來越高,Apache HDFS 面臨著新的挑戰。在字節跳動,HDFS 即是傳統 Hadoop 數倉業務的存儲,也是存算分離架構計算引擎的底座,還是機器學習模型訓練的存儲底座。在字節跳動,HDFS 既搭建了服務于大規模計算資源調度跨多地區的存儲調度能力提升計算任務穩定性;也提供了統合用戶側緩存、常規三副本、冷存的數據識別和冷熱調度能力。本次分享介紹字節跳動內部如何認識新興場景對傳統大數據存儲的新要求,并通過技術演進和運維體系建設,支持不同場景下的系統穩定。
講師簡介:主要負責大數據存儲 HDFS 元數據服務演進和上層計算生態支持。
專題:云原生
字節跳動云原生 YARN 實踐
邵凱陽 火山引擎云原生計算研發工程師
演講簡介:字節跳動內部離線業務具有龐大的規模,線上每天有數十萬節點、數百萬任務運行,每天使用的資源量達千萬量級,內部由離線調度系統和在線調度系統分別負責離線業務和在線業務的調度管理。但隨著業務規模發展,這一套系統暴露了一些短板:在離線屬于兩套系統,一些重大活動場景需要通過運維方式進行在離線資源轉換,運維負擔繁重,轉換周期長;資源池不統一使得整體資源利用率不高,配額管控、機器運維等無法復用;大數據作業無法享受到云原生的各種好處,例如:可靠穩定的隔離能力、便捷的運維能力等。在離線系統亟待統一,而傳統大數據引擎不是針對云原生設計難以直接云原生部署,各計算引擎和任務需要進行深度改造才能支持原先在 YARN 上的各種特性,改造成本巨大。基于此背景,字節跳動提出基于云原生的 YARN 解決方案 —— Serverless YARN,其 100% 兼容 Hadoop YARN 協議, Hadoop 生態下的大數據作業無需修改即可透明遷移到云原生系統上,在線資源和離線資源間可以高效靈活轉換、分時復用,集群整體資源利用率得到顯著提升。
講師簡介:在字節跳動基礎架構負責離線調度相關工作,具有多年工程架構經驗。

?