速遞FineWeb：一個擁有無限潛力的15T Tokens的開源數據集

大模型技術論文不斷，每個月總會新增上千篇。本專欄精選論文重點解讀，主題還是圍繞著行業實踐和工程量產。若在某個環節出現卡點，可以回到大模型必備腔調或者LLM背后的基礎模型新閱讀。而最新科技（Mamba,xLSTM,KAN）則提供了大模型領域最新技術跟蹤。若對于具身智能感興趣的請移步具身智能專欄。技術宅麻煩死磕AI架構設計。

FineWeb

FineWeb是一個新發布的開源數據集，它希望通過其廣泛收集的英語網絡數據來推動語言模型研究發展。FineWeb 由 huggingface 領導的團體研發，提供超過15萬億個Token，這些Token來自2013年至2024年的 CommonCrawl轉儲。

FineWeb在設計時一絲不茍，使用datatrove進行流水線處理。這個過程針對數據集進行清理和重復數據刪除的操作，從而提高其質量和適用性以便利于大語言模型的訓練和評估。

FineWeb的主要優勢之一在于其性能。通過精心策劃和創新的過濾技術，FineWeb在各種基準測試任務中優于C4、Dolma v1.6、The Pile和 SlimPajama 等已建立的數據集。在FineWeb上訓練的模型表現出卓越的性能，它已經成為自然語言處理的寶貴資源。

透明度和可重建是FineWeb發展的核心原則。該數據集及其處理管道代碼在ODC-By 1.0許可下發布，使研究人員能夠輕松復制和構建其發現。FineWeb還進行了廣泛的消融和基準測試，以驗證其對已建立數據集的有效性，確保其在語言模型研究中的可靠性和有用性。

FineWeb利用了URL?過濾、語言檢測和質量評估等過濾步驟提高數據集的完整性和豐富性。每個CommonCrawl轉儲都使用高級MinHash技術單獨刪除重復數據，進一步提高了數據集的質量和實用性。<小編認為Minio其實也是可以的！>

關聯閱讀

2024年似乎已經打破了數據集方面的“4 分鐘英里”。盡管Redpajama 2提供了高達30T?的Tokens，但大多數在2023年的LLMs都使用高達2.5T?的Tokens進行訓練。隨后DBRX推出12T的Tokens，Reka Core/Flash/Edge 推出5T的Tokens，Llama 3推出15T的Tokens。現在Huggingface 發布了一個開放數據集，其中包含12年過濾和重復數據刪除的CommonCrawl的數據，總共有15T個Tokens。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/21845.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/21845.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/21845.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！