解鎖AI無限潛能！景聯文科技數據產品矩陣再升級：多語言題庫、海量語料、垂域代碼庫，全面賦能大模型訓練

景聯文科技持續聚焦AI數據需求前沿，全新發布包含中文題庫數據集、英文題庫數據集、算法代碼數據庫、英文語料、中文語料、垂直領域數據、小語種數據在內的七大高質量數據集產品系列。

此次發布的數據集覆蓋廣泛的應用場景，通過嚴格的清洗與結構化處理，確保數據內容的準確性、多樣性和合規性。

全面助力科研機構、科技企業及開發者在自然語言處理、智能教育、代碼理解、跨語言建模等領域的模型訓練與落地應用。

大模型訓練-中文題庫數據集

邏輯題庫

數據詳情：包含題型全面分類、題量豐富且解析完備的邏輯推理題庫體系，形成具備"一級+二級"結構化分類標簽、可定向提升模型推理能力的成品數據產品。總計13萬道，含多模態試題2萬道與文本類11萬道。

數據格式：JSON、IMG

大學數學題庫

數據詳情：涵蓋22萬道精選試題，形成覆蓋微積分、線性代數、概率統計等核心領域的結構化教學數據產品，助力精準測評與自適應學習。

可滿足高校數學教育智能化需求。

數據格式：JSON、IMG

中文教育題庫K12題庫

數據詳情：包含K12全科目試題、升學考等真題試卷和自建競賽試題三類。共3052萬道試題。

格式：PDF、JSON、IMG

公考題庫

數據詳情：包含9萬道公考試題，其中0.7萬道為多模態試題。為大模型提供兼具數學推理、言語理解和考試策略分析能力的復合型訓練資源。

可全面提升大模型的多模態理解與解題能力。

格式：JSON

2. 大模型訓練-英文題庫數據集

大學英文教育題庫

數據詳情：涵蓋大學所有學科試題的英文教育題庫，總計9萬道題目，整體難度適中。

該題庫專為針對英文語種題進行訓練的解題大模型設計，可滿足大學教育階段英文題目解題訓練需求。

格式：JSON

K12英文教育題庫

數據詳情：涵蓋小學、初中、高中等試題的英文教育題庫，總計5637萬道題目。其中包含229萬多模態試題，題源來自海外教育體系下真實試題，非翻譯版本。

可滿足不同教育階段英文題目解題訓練需求。

格式：JSON、IMG

3. 大模型訓練-算法代碼數據庫

數據詳情：包含20萬道算法題，12萬份答案詳解的優質數據資源。可提升大模型的邏輯推理、題目解決能力，以及代碼生成與優化能力。

格式：JSON

4.大模型訓練-英文語料

英文期刊

數據詳情：收錄了800萬篇權威英文期刊論文數據，數據包含自然科學、工程技術及醫學健康等多學科領域文獻。

適用于科研方法論訓練、專業術語理解提升及技術原理推理能力強化場景。

格式：PDF

英文劇本

數據詳情：收錄了1.4萬本優質英文劇本數據，數據包含電視劇、電影、話劇及舞臺劇等多維度劇本內容。

可用于故事生成 agent 提升和模型對話 prompt。

格式：TXT、EXCEL

英文書籍

數據詳情：收錄了180萬冊英文電子書籍數據，數據包含多學科領域的專業文本內容。

適用于自然語言處理研究、大模型訓練及語言生成優化場景。

格式：TXT、PDF、MOBI、EPUB

5.大模型訓練-中文語料

中文劇本

數據詳情：包含2.3萬本優質中文劇本，覆蓋電視劇、電影、話劇、舞臺劇等。

可用于故事生成 agent 提升和模型對話 prompt。

格式：TXT、EXCEL

多輪對話

數據詳情：收錄1467.3萬組多輪對話文本，對話內容包含客服、情感及日常對話，占比為 1:1:1。

適用于智能客服系統、聊天機器人、虛擬助理與個人助手模型 prompt。

格式：JSON、TXT

裁判文書數據

數據詳情：包含8000萬條法律文書數據，覆蓋民事、刑事、行政等全部案由類型。

適用于提升模型法律條文理解能力、裁判邏輯推理和文書生成等的專屬垂類領域數據。

格式：EXCEL

碩博論文

數據詳情：包含23萬篇理工科中文碩博論文，覆蓋基礎科學、工程技術、信息科技等前沿領域。

可用于提升模型理解推理能力，推動跨領域應用。

格式：PDF

6.大模型訓練-多垂直領域知識教材書籍數據

管理科學知識

數據詳情：收錄303冊管理科學教材數據，數據包含管理學科相關文獻，以及管理學科知識圖譜。

適用于教育大模型訓練、智能教學系統開發與跨語言教育A1應用場景。

格式：PDF、EXCEL、Word

K12中英文教輔教材

數據詳情：收錄11655冊中英文教輔教材數據，數據包含10225冊中文教輔與1430冊英文教輔的K12全學科內容。

適用于教育大模型訓練、智能教學系統開發及跨語言教育 AI 應用場景。

格式：PDF

工業書籍

數據詳情：收錄3.4萬冊專業工業書籍數據，數據覆蓋多個領域的中英文專業書籍。

適用于工業AI大模型訓練、智能決策系統構建與專業技術知識服務場景。

格式：PDF、Word

7.大模型訓練-小語種數據

小語種數字專利

數據詳情：收錄131.4萬條小語種專業數據，覆蓋多國語言，涉及各個技術領域。

適用于大模型跨文化理解訓練、多語言模式適應及專業領域AI應用場景。

格式：PDF

小語種平行語料

數據詳情：收錄110萬條小語種平行語料數據，數據包含包括阿拉伯語、波蘭語、德語、俄語、法語、馬來語、泰語、土耳其語、西班牙語、意大利語、英語共11 國語言文本。

適用于跨文化理解訓練、多語言模式適應及小語種 AI 應用場景

格式：EXCEL

隨著AI應用場景的不斷拓展，對高質量、多語言、細分專業領域的數據資源需求也將持續增長。

景聯文科技將繼續秉持“成為人工智能的核心引擎，讓每一比特數據釋放AI的無限可能”的愿景，不斷優化數據產品體系，滿足日益復雜和多元的模型訓練需求。

如需了解更多關于本次數據集的技術參數、樣本示例或定制化服務，請訪問我們的官網或聯系專屬商務經理。

讓我們攜手打造更加智能、高效的人工智能未來！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/86942.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/86942.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/86942.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！