lakeFS 是一個開源工具,它將用戶的對象存儲轉換為類似Git的存儲庫。使用戶可以像管理代碼一樣管理數據湖。借助 lakeFS,可以構建可重復、原子化和版本化的數據湖操作--從復雜的ETL作業到數據科學和分析。
![]() | 11090 |
![]() | 3157 |
主要特點
-
強大的數據預處理:數據清理、異常值處理、填充缺失值等。確保用于預處理的數據管道穩健并提供高質量。
-
重復數據刪除實驗:使用 LakeFS 分支與完全重復數據刪除的數據湖中的零拷貝克隆并行運行實驗,使您能夠有效地比較它們以選擇最佳的一個。
-
可重復的特征工程和模型訓練:提交實驗結果,并使用 LakeFS Git 集成以正確版本的數據、代碼和模型權重重現任何實驗。
官網:Git for Data - lakeFS?
?GitHub:https://github.com/treeverse/lakeFS