LLM 多語言數據集

LLM 多語言數據集

web/2025/7/28 7:31:13/文章來源:https://blog.csdn.net/m0_50089378/article/details/149698073

多語言數據感覺主要還是fineweb和fineweb2, 其他數據都是主要針對特定語種比較多

101 Billion Arabic Words Dataset

ClusterlabAi/101_billion_arabic_words_dataset
數據主要從e Common Crawl WET 中提取，并采用了創新的技術來進行去重和篩選，主要解決大部分語料是從英語翻譯過來的問題。
數據收集：

時間： week 39 of 2021 to week 27 of 2022的時間段內
從3000個網站中，篩選出250個阿拉伯網站，
數據清洗：

數據去重：
基于minihash的方式對總文本和段落分別進行去重。
使用了一些專門針對阿拉伯語設計的分詞和處理的工具： Camel tools library version 1.5.2， Tnkeeh v0.0.9。
最終數據集的情況：
在這里插入圖片描述

缺陷：沒有對倫理、有害、敏感的數據進行去除，大部分依賴URL進行過濾和進行簡單的去重操作。

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
m-a-p/MAP-CC
數據來源 : 包含CC, 學術論文, 百科全書, 書籍.
數據處理流程 :
在這里插入圖片描述

對于上述的啟發式過濾采用了右圖辦法。附帶了一個CHC-Bench，評估在中文上的模型性能。

CroissantLLM: A Truly Bilingual French-English Language Model

（論文提到的Tokenizer也有變化，可以去看一看）
法語數據來源（英語和Code數據來源是公開數據集）：

Oscar、mC4等多個網絡爬蟲項目 + 比利時、瑞士和摩洛哥等非洲國家的主流新聞源
法國法律行政數據，5.3B
文化數據
? 古登堡計劃（Hart, 1971）截至2023年10月的全部法語公版書籍（3.02億token）
? 法國國家圖書館（BnF）的手稿與文檔：經OCR處理、公版認證且通過質量篩選（保留2700萬token，原始語料大部分因質量剔除）
? 詩歌網站爬取的法語經典詩歌
? 高質量語音轉文字生成的播客文本（規模有限）
? OpenSubtitles電影字幕（4180萬token）
百科全書數據
工業數據
在對于Web Data做了一些數據清洗的工作，對于其他數據沒有進行系統的數據清洗

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/90763.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/90763.shtml
英文地址，請注明出處：http://en.pswp.cn/web/90763.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

【HarmonyOS Next之旅】DevEco Studio使用指南(三十六) -＞配置構建(三)

【HarmonyOS Next之旅】DevEco Studio使用指南(三十六) -＞配置構建(三)

目錄 1 -> 定制HAR多目標構建產物 1.1 -> 定義產物的deviceType 1.2 -> 定義C工程依賴的.so文件 1.3 -> 定義產物的資源 2 -> 配置APP多目標構建產物 2.1 -> 定義產物的APP包名和供應商名稱 2.2 -> 定義product的bundleName 2.3 -> 定義produc…

閱讀更多...

數據賦能（340）——技術平臺——共享平臺

數據賦能（340）——技術平臺——共享平臺

概述重要性如下：提高數據利用效率：數據共享平臺能夠將分散在各部門的數據進行集中管理，促進數據流通和共享，避免數據孤島現象，從而提高數據利用效率。促進決策科學化：通過共享平臺，各部門可以獲…

閱讀更多...

開閉原則在C++中的實現

開閉原則在C++中的實現

開閉原則（Open/Closed Principle，簡稱 OCP）是面向對象設計中的一個重要原則，屬于“SOLID”原則之一。它的核心思想是：“軟件實體（如類、模塊、函數等）應該對擴展開放，對修改關閉。”…

閱讀更多...

C語言:*p++與p++有何區別

C語言:*p++與p++有何區別

1. 指針基礎練習：演示p、p和(*p)的區別核心目的：區分指針自增與指針指向值自增的不同邏輯，理解運算符優先級對指針操作的影響。#include <stdio.h>void arr1() {int arr[] {11,13,15,17,19};int *p arr;printf("結果1&#xff1…

閱讀更多...

【設計】設計一個web版的數據庫管理平臺后端（之二）

【設計】設計一個web版的數據庫管理平臺后端（之二）

在之前，我寫過一篇【設計】設計一個web版的數據庫管理平臺后端精要的文章，文章講了一個web版數據庫管理平臺的實現思路及主要代碼。最近，我看了下Mybatis的源碼，覺得Mybatis的分層架構挺好，所以想到了完善下web版數據…

閱讀更多...

Visual tudio 各版本下 C++ 開發的核心區別與實踐指南

Visual tudio 各版本下 C++ 開發的核心區別與實踐指南

C語言的發展經歷了數十年的演進，從 C98 到現代的 C20/23，語言本身發生了巨大的變革。與此同時，Visual Studio 作為主流的 C 開發環境之一，其編譯器對各個 C 標準的支持程度也隨版本不斷演進，直接影響著開發者的編程方式…

閱讀更多...

怎樣讓阿里云服務器（centos）有界面

怎樣讓阿里云服務器（centos）有界面

要讓阿里云服務器 CentOS 有圖形界面，可以按照以下步驟進行操作：登錄服務器：使用 SSH 客戶端工具，通過 IP 地址和賬號登錄到阿里云服務器。更新系統軟件源：輸入命令sudo yum update，更新系統軟件源&#xf…

閱讀更多...

Qt 異步編程模式與應用

Qt 異步編程模式與應用

在現代軟件開發中，異步編程已成為提升應用性能和響應性的關鍵技術。Qt 作為一個強大的跨平臺框架，提供了多種異步編程模式，包括信號槽機制、事件循環、線程池、異步 I/O 等。本文將深入探討 Qt 異步編程的各種模式及其應用場景，幫…

閱讀更多...

面試150 數字范圍按位與

面試150 數字范圍按位與

思路只要 left < right，說明兩者在某些低位上存在不同，為了找到它們的公共前綴（高位相同部分），不斷將 left 和 right 同時右移（即除以2），直到它們相等，記錄右移的次數…

閱讀更多...

數據庫HB OB mysql ck startrocks, ES存儲特點，以及應用場景

數據庫HB OB mysql ck startrocks, ES存儲特點，以及應用場景

這些數據庫和存儲引擎主要有：HB（HBase）、OB（OceanBase）、MySQL、ClickHouse（CK）、StarRocks、Elasticsearch（ES），下面分別介紹它們的存儲特點以及典型應用場景。 1. HBase (HB) 存儲特點分布式、面向列的NoSQL數據庫采用HDFS存儲，數據以表、row key、列族、時間戳…

閱讀更多...

Java技術棧/面試題合集(17)-Git篇

Java技術棧/面試題合集(17)-Git篇

場景 Java入門、進階、強化、擴展、知識體系完善等知識點學習、性能優化、源碼分析專欄分享： Java入門、進階、強化、擴展、知識體系完善等知識點學習、性能優化、源碼分析專欄分享_java高級進階-CSDN博客通過對面試題進行系統的復習可以對Java體系的知識點進行查漏補缺。…

閱讀更多...

破局與重構：King’s LIMS 引領電子行業實驗室智能化轉型

破局與重構：King’s LIMS 引領電子行業實驗室智能化轉型

在全球化高新技術競爭白熱化背景下，電子行業正經歷從規模導向擴張向質量效益躍升的戰略轉型。終端用戶對產品性能的極致化追求、行業質量合規標準的持續迭代升級，以及檢測數據的指數級增長，共同形成"需求牽引供給、供給創造需求"的…

閱讀更多...

暑期算法訓練.9

暑期算法訓練.9

目錄 43 .力扣75 顏色分類 43.1 題目解析： 43.2 算法思路： 43.3 代碼演示： 43.4 總結反思： 44. 力扣 912 排序數組 44.1 題目解析： 44.2 算法思路： 44.3 代碼演示： ?編輯 44.4 總結反…

閱讀更多...

2.安裝CUDA詳細步驟（含安裝截圖）

2.安裝CUDA詳細步驟（含安裝截圖）

2.安裝CUDA 第一步：安裝anaconda 注意：安裝CUDA之前需要安裝好anaconda，詳見安裝anaconda詳細步驟（含安裝截圖） 文章目錄2.安裝CUDA2.0 CUDA是什么，為什么要安裝它？2.1 驗證計算機是否安裝CUDA2…

閱讀更多...

Triton IR

Triton IR

Triton IR語法 Triton IR的語句遵從MLIR Dialect的語法定義規范，示例如下： %3 tt.splat %1 : i32 -> tensor<1024xi32> loc(#loc5) 其中： %0：右邊expression的結果值的名字（Value的name） tt…

閱讀更多...

掌握JavaScript函數封裝與作用域

掌握JavaScript函數封裝與作用域

JavaScript 基礎 - 第4天筆記理解封裝的意義，能夠通過函數的聲明實現邏輯的封裝，知道對象數據類型的特征，結合數學對象實現簡單計算功能。理解函數的封裝的特征掌握函數聲明的語法理解什么是函數的返回值知道并能使用常見的內置函數函數理解函…

閱讀更多...

Datawhale AI 夏令營—科大訊飛AI大賽（大模型技術）—讓大模型理解表格數據（列車信息表）

Datawhale AI 夏令營—科大訊飛AI大賽（大模型技術）—讓大模型理解表格數據（列車信息表）

目錄一、本次賽事目標：讓大模型理解表格數據（列車信息表） 二、分析賽題、對問題進行建模賽事背景賽題解讀數據分析與探索賽題要點與難點解題思考過程三、Baseline方案 Baseline概況 Baseline運行步驟 Baseline文件概況 Ba…

閱讀更多...

SSH連接失敗排查與解決教程： Connection refused

SSH連接失敗排查與解決教程： Connection refused

前言當使用云服務器（如阿里云、騰訊云、AWS 等）時，嘗試在本地PC端使用圖形化工具如 FinalShell、XShell可能會遇到 SSH 連接失敗的問題。本文列舉 SSH 連接失敗的常見原因，并提供對應解決方案，幫助快速定位并解決問題…

閱讀更多...

性能優化：Vue 3 `v-memo` 指令詳解

性能優化：Vue 3 `v-memo` 指令詳解

v-memo 是 Vue 3 提供的一個性能優化工具，能幫助開發者緩存模板內容，減少不必要的渲染開銷。本文將介紹 v-memo 的引入版本、作用、使用方法和實現原理，并通過示例說明如何使用它。內容基于 Vue 3.5.18（截至 2025 年 7 月的最新版…

閱讀更多...

標準庫開發和寄存器開發的區別

標準庫開發和寄存器開發的區別

1.標準庫void GPIO_Toggle_INIT(void)//初始化GPIO {GPIO_InitTypeDef GPIO_InitStructure {0};//定義GPIO結構體RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOC, ENABLE);//使能GPIO時鐘GPIO_InitStructure.GPIO_Pin GPIO_Pin_2;//GPIO引腳選擇GPIO_InitStructure.GPIO_Mode …

閱讀更多...

最新文章