解鎖AI無限潛能!景聯文科技數據產品矩陣再升級:多語言題庫、海量語料、垂域代碼庫,全面賦能大模型訓練

景聯文科技持續聚焦AI數據需求前沿,全新發布包含中文題庫數據集、英文題庫數據集、算法代碼數據庫、英文語料、中文語料、垂直領域數據、小語種數據在內的七大高質量數據集產品系列。

此次發布的數據集覆蓋廣泛的應用場景,通過嚴格的清洗與結構化處理,確保數據內容的準確性、多樣性和合規性。

全面助力科研機構、科技企業及開發者在自然語言處理、智能教育、代碼理解、跨語言建模等領域的模型訓練與落地應用。

  1. 大模型訓練-中文題庫數據集

邏輯題庫

數據詳情:包含題型全面分類、題量豐富且解析完備的邏輯推理題庫體系,形成具備"一級+二級"結構化分類標簽、可定向提升模型推理能力的成品數據產品。總計13萬道,含多模態試題2萬道與文本類11萬道。

數據格式:JSON、IMG

大學數學題庫

數據詳情:涵蓋22萬道精選試題,形成覆蓋微積分、線性代數、概率統計等核心領域的結構化教學數據產品,助力精準測評與自適應學習。

可滿足高校數學教育智能化需求。

數據格式:JSON、IMG

中文教育題庫K12題庫

數據詳情:包含K12全科目試題、升學考等真題試卷和自建競賽試題三類。共3052萬道試題。

格式:PDF、JSON、IMG

公考題庫

數據詳情:包含9萬道公考試題,其中0.7萬道為多模態試題。為大模型提供兼具數學推理、言語理解和考試策略分析能力的復合型訓練資源。

可全面提升大模型的多模態理解與解題能力。

格式:JSON

2. 大模型訓練-英文題庫數據集

大學英文教育題庫

數據詳情:涵蓋大學所有學科試題的英文教育題庫,總計9萬道題目,整體難度適中。

該題庫專為針對英文語種題進行訓練的解題大模型設計,可滿足大學教育階段英文題目解題訓練需求。

格式:JSON

K12英文教育題庫

數據詳情:涵蓋小學、初中、高中等試題的英文教育題庫,總計5637萬道題目。其中包含229萬多模態試題,題源來自海外教育體系下真實試題,非翻譯版本。

可滿足不同教育階段英文題目解題訓練需求。

格式:JSON、IMG

    3. 大模型訓練-算法代碼數據庫

    數據詳情:包含20萬道算法題,12萬份答案詳解的優質數據資源可提升大模型的邏輯推理、題目解決能力,以及代碼生成與優化能力。

    格式:JSON

      4.大模型訓練-英文語料

      英文期刊

      數據詳情:收錄了800萬篇權威英文期刊論文數據,數據包含自然科學、工程技術及醫學健康等多學科領域文獻。

      適用于科研方法論訓練、專業術語理解提升及技術原理推理能力強化場景。

      格式:PDF

      英文劇本

      數據詳情:收錄了1.4萬本優質英文劇本數據,數據包含電視劇、電影、話劇及舞臺劇等多維度劇本內容。

      可用于故事生成 agent 提升和模型對話 prompt。

      格式:TXT、EXCEL

      英文書籍

      數據詳情:收錄了180萬冊英文電子書籍數據,數據包含多學科領域的專業文本內容。

      適用于自然語言處理研究、大模型訓練及語言生成優化場景。

      格式:TXT、PDF、MOBI、EPUB

      5.大模型訓練-中文語料

      中文劇本

      數據詳情:包含2.3萬本優質中文劇本,覆蓋電視劇、電影、話劇、舞臺劇等。

      可用于故事生成 agent 提升和模型對話 prompt。

      格式:TXT、EXCEL

      多輪對話

      數據詳情:收錄1467.3萬組多輪對話文本,對話內容包含客服、情感及日常對話,占比為 1:1:1。

      適用于智能客服系統、聊天機器人、虛擬助理與個人助手模型 prompt。

      格式:JSON、TXT

      裁判文書數據

      數據詳情:包含8000萬條法律文書數據,覆蓋民事、刑事、行政等全部案由類型。

      適用于提升模型法律條文理解能力、裁判邏輯推理和文書生成等的專屬垂類領域數據。

      格式:EXCEL

      碩博論文

      數據詳情:包含23萬篇理工科中文碩博論文,覆蓋基礎科學、工程技術、信息科技等前沿領域。

      可用于提升模型理解推理能力,推動跨領域應用。

      格式:PDF

      6.大模型訓練-多垂直領域知識教材書籍數據

      管理科學知識

      數據詳情:收錄303冊管理科學教材數據,數據包含管理學科相關文獻,以及管理學科知識圖譜。

      適用于教育大模型訓練、智能教學系統開發與跨語言教育A1應用場景。

      格式:PDF、EXCEL、Word

      K12中英文教輔教材

      數據詳情:收錄11655冊中英文教輔教材數據,數據包含10225冊中文教輔與1430冊英文教輔的K12全學科內容。

      適用于教育大模型訓練、智能教學系統開發及跨語言教育 AI 應用場景。

      格式:PDF

      工業書籍

      數據詳情:收錄3.4萬冊專業工業書籍數據,數據覆蓋多個領域的中英文專業書籍。

      適用于工業AI大模型訓練、智能決策系統構建與專業技術知識服務場景。

      格式:PDF、Word

      7.大模型訓練-小語種數據

      小語種數字專利

      數據詳情:收錄131.4萬條小語種專業數據,覆蓋多國語言,涉及各個技術領域。

      適用于大模型跨文化理解訓練、多語言模式適應及專業領域AI應用場景。

      格式:PDF

      小語種平行語料

      數據詳情:收錄110萬條小語種平行語料數據,數據包含包括阿拉伯語、波蘭語、德語、俄語、法語、馬來語、泰語、土耳其語、西班牙語、意大利語、英語共11 國語言文本。

      適用于跨文化理解訓練、多語言模式適應及小語種 AI 應用場景

      格式:EXCEL

      隨著AI應用場景的不斷拓展,對高質量、多語言、細分專業領域的數據資源需求也將持續增長。

      景聯文科技將繼續秉持“成為人工智能的核心引擎,讓每一比特數據釋放AI的無限可能”的愿景,不斷優化數據產品體系,滿足日益復雜和多元的模型訓練需求。

      如需了解更多關于本次數據集的技術參數、樣本示例或定制化服務,請訪問我們的官網或聯系專屬商務經理。

      讓我們攜手打造更加智能、高效的人工智能未來!

      本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
      如若轉載,請注明出處:http://www.pswp.cn/pingmian/86942.shtml
      繁體地址,請注明出處:http://hk.pswp.cn/pingmian/86942.shtml
      英文地址,請注明出處:http://en.pswp.cn/pingmian/86942.shtml

      如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

      相關文章

      OSPF(開放最短路徑優先)

      一、ospf簡介 OSPF是基于鏈路狀態的內部網關協議,與距離矢量協議不同,鏈路狀態協議通告的是鏈路狀態而不是路由表。OSPF是用于自治系統(AS)內部的路由決策,特點有,收斂速度快,安全性好,避免環路…

      全面擁抱vue3

      Vue 3 性能全面解析:為何性能飛躍提升 Vue 3 在性能方面實現了質的飛躍,相比 Vue 2 在多個維度都有顯著提升。以下是 Vue 3 性能優化的全面解析: 一、核心架構優化 1. 響應式系統重寫(Proxy 替代 defineProperty) …

      C#最佳實踐:考慮為類重寫ToString()方法

      C#最佳實踐:考慮為類重寫ToString()方法 在 C# 編程的日常開發中,ToString()方法是一個既基礎又容易被忽視的重要成員。它是System.Object類的虛方法,所有類都繼承自System.Object,這意味著每個類都擁有ToString()方法。然而,默認的ToString()方法往往無法滿足實際需求,…

      從0開始學習計算機視覺--Day05--優化

      除了得到最小的W之外,如何節省這個探索最優W的過程,也是很重要的一點。假如把這個過程比作從山上的頂點開始下山,把圖中必定游玩的經典比作最優權重,那么節省的過程,就是找到下山的最短路徑的過程。而在下山的過程中&a…

      OpenCV計算機視覺實戰(14)——直方圖均衡化

      OpenCV計算機視覺實戰(14)——直方圖均衡化 0. 前言1. CLAHE 自適應均衡1.1 應用場景1.2 實現過程 2. 直方圖反向投影2.1 應用場景2.2 實現過程 3. 基于顏色的目標追蹤小結系列鏈接 0. 前言 在圖像處理與計算機視覺領域,直方圖技術是最直觀且…

      基于uniapp的老年皮膚健康管理微信小程序平臺(源碼+論文+部署+安裝+售后)

      感興趣的可以先收藏起來,還有大家在畢設選題,項目以及論文編寫等相關問題都可以給我留言咨詢,我會一一回復,希望幫助更多的人。 系統背景 近年來,我國人口老齡化進程不斷加快,據國家統計局數據顯示&#…

      MySQL(106)如何設計分片鍵?

      設計分片鍵(Sharding Key)是數據庫分片的核心,它決定了將數據分配到不同分片的方式。一個好的分片鍵應該能夠均衡地分布數據,避免熱點問題,提高查詢性能。下面將詳細介紹如何設計分片鍵,并結合代碼進行說明…

      汽車一鍵啟動升級手機控車

      汽車一鍵啟動升級手機控車實現手機遠程啟動,不改變原車任何功能且全部免接線。升級后原車遙控器能在有效范圍內啟動車輛。移動管家手機控車一鍵啟動系統用手機遠程控制,完美兼容原車遙控器。支持長安、別克、寶馬、奧迪等眾多系列車型,市場99…

      【開源項目】「安卓原生3D開源渲染引擎」:Sceneform?EQR

      「安卓原生3D開源渲染引擎」:Sceneform?EQR 渲染引擎 “那一夜凌晨3點,第一次提交 PR 的手在抖……”——我深刻體會這種忐忑與激動。 倉庫地址:(https://github.com/eqgis/Sceneform-EQR)。 一、前言:開源對我意味著什么 DIY 的…

      建造者模式 - Flutter中的樂高大師,優雅組裝復雜UI組件!

      痛點場景:復雜的對話框配置 假設你需要創建一個多功能對話框: CustomDialog(title: 警告,content: 確定要刪除嗎?,titleStyle: TextStyle(fontSize: 20, color: Colors.red),contentStyle: TextStyle(fontSize: 16),backgroundColor: Color…

      基于Java+Spring Boot的大學校園生活信息平臺

      源碼編號:S559 源碼名稱:基于Spring Boot的大學校園生活信息平臺 用戶類型:雙角色,用戶、管理員 數據庫表數量:17 張表 主要技術:Java、Vue、ElementUl 、SpringBoot、Maven 運行環境:Wind…

      C# .NET Framework 中的高效 MQTT 消息傳遞

      介紹: 在當今互聯互通的世界里,設備之間高效可靠的通信至關重要。MQTT(消息隊列遙測傳輸)就是為此而設計的輕量級消息傳遞協議。本文將探討 MQTT 是什么、它的優勢以及如何在 .NET 框架中設置和實現它。最后,您將對 M…

      nn.Embedding 和 word2vec 的區別

      理解它們的關鍵在于??區分概念層級和職責??。 可以將它們類比為: ??word2vec:?? 一個??專門制作高質量詞向量模型的“工廠”??。??nn.Embedding:?? 一個??可存儲、查找并訓練詞向量的“智能儲物柜”??(作為…

      華為云Flexus+DeepSeek征文|??華為云ModelArts Studio大模型 + WPS:AI智能PPT生成解決方案?

      引言:告別繁瑣PPT制作,AI賦能高效辦公 ?? 在商業匯報、學術研究、產品發布等場景中,制作專業PPT往往需要耗費大量時間進行內容整理、邏輯梳理和視覺美化。??華為云ModelArts Studio大模型??與??WPS??深度結合,推出AI-P…

      【連接redis超時】

      報錯 客戶端輸出緩沖區超限 Client … scheduled to be closed ASAP for overcoming of output buffer limits 表示這些客戶端(通過 psubscribe 命令進行發布訂閱操作)的輸出緩沖區超過了 Redis 配置的限制,Redis 會關閉這些客戶端連接來避免…

      PHP「Not enough Memory」實戰排錯筆記

      目錄 PHP「Not enough Memory」實戰排錯筆記 1. 背景 2. 快速定位 3. 為什么 5 MB 的圖片能耗盡 128 MB? 3.1 粗略估算公式(GD) 4. 實際峰值監控 5. 解決過程 6. 最佳實踐與防御措施 7. 總結 PHP「Not enough Memory」實戰排錯筆記 —…

      Java垃圾回收機制和三色標記算法

      一、對象內存回收 對于對象回收,需要先判斷垃圾對象,然后收集垃圾。 收集垃圾采用垃圾收集算法和垃圾收集器。 判斷垃圾對象,通常采用可達性分析算法。 引用計數法 每個對象設置一個引用計數器。每被引用一次,計數器就加1&am…

      基于python網絡數據挖掘的二手房推薦系統

      基于網絡數據挖掘的二手房推薦系統設計與實現 【摘要】 隨著互聯網技術在房地產行業的深入應用,線上房源信息呈爆炸式增長,給購房者帶來了信息過載的挑戰。為了提升二手房篩選的效率與精準度,本文設計并實現了一個基于網絡數據挖掘的二手房推…

      Java + 阿里云 Gmsse 實現 SSL 國密通信

      前言 解決接口或頁面僅密信瀏覽器(或 360 國密瀏覽器)能訪問的問題 測試頁面 測試網站-中國銀行:https://ebssec.boc.cn/boc15/help.html 使用其他瀏覽器(google,edge等)打開 使用密信瀏覽器打開 解決…

      國產數據庫分類總結

      文章目錄 一、華為系數據庫1. 華為 GaussDB 二、阿里系數據庫1. 阿里云 OceanBase2. PolarDB(阿里云自研) 三、騰訊系數據庫1. TDSQL(騰訊云)2. TBase(PostgreSQL增強版) 四、傳統國產數據庫1. 達夢數據庫&…