景聯文科技持續聚焦AI數據需求前沿,全新發布包含中文題庫數據集、英文題庫數據集、算法代碼數據庫、英文語料、中文語料、垂直領域數據、小語種數據在內的七大高質量數據集產品系列。
此次發布的數據集覆蓋廣泛的應用場景,通過嚴格的清洗與結構化處理,確保數據內容的準確性、多樣性和合規性。
全面助力科研機構、科技企業及開發者在自然語言處理、智能教育、代碼理解、跨語言建模等領域的模型訓練與落地應用。
- 大模型訓練-中文題庫數據集
邏輯題庫
數據詳情:包含題型全面分類、題量豐富且解析完備的邏輯推理題庫體系,形成具備"一級+二級"結構化分類標簽、可定向提升模型推理能力的成品數據產品。總計13萬道,含多模態試題2萬道與文本類11萬道。
數據格式:JSON、IMG
大學數學題庫
數據詳情:涵蓋22萬道精選試題,形成覆蓋微積分、線性代數、概率統計等核心領域的結構化教學數據產品,助力精準測評與自適應學習。
可滿足高校數學教育智能化需求。
數據格式:JSON、IMG
中文教育題庫K12題庫
數據詳情:包含K12全科目試題、升學考等真題試卷和自建競賽試題三類。共3052萬道試題。
格式:PDF、JSON、IMG
公考題庫
數據詳情:包含9萬道公考試題,其中0.7萬道為多模態試題。為大模型提供兼具數學推理、言語理解和考試策略分析能力的復合型訓練資源。
可全面提升大模型的多模態理解與解題能力。
格式:JSON
2. 大模型訓練-英文題庫數據集
大學英文教育題庫
數據詳情:涵蓋大學所有學科試題的英文教育題庫,總計9萬道題目,整體難度適中。
該題庫專為針對英文語種題進行訓練的解題大模型設計,可滿足大學教育階段英文題目解題訓練需求。
格式:JSON
K12英文教育題庫
數據詳情:涵蓋小學、初中、高中等試題的英文教育題庫,總計5637萬道題目。其中包含229萬多模態試題,題源來自海外教育體系下真實試題,非翻譯版本。
可滿足不同教育階段英文題目解題訓練需求。
格式:JSON、IMG
3. 大模型訓練-算法代碼數據庫
數據詳情:包含20萬道算法題,12萬份答案詳解的優質數據資源。可提升大模型的邏輯推理、題目解決能力,以及代碼生成與優化能力。
格式:JSON
4.大模型訓練-英文語料
英文期刊
數據詳情:收錄了800萬篇權威英文期刊論文數據,數據包含自然科學、工程技術及醫學健康等多學科領域文獻。
適用于科研方法論訓練、專業術語理解提升及技術原理推理能力強化場景。
格式:PDF
英文劇本
數據詳情:收錄了1.4萬本優質英文劇本數據,數據包含電視劇、電影、話劇及舞臺劇等多維度劇本內容。
可用于故事生成 agent 提升和模型對話 prompt。
格式:TXT、EXCEL
英文書籍
數據詳情:收錄了180萬冊英文電子書籍數據,數據包含多學科領域的專業文本內容。
適用于自然語言處理研究、大模型訓練及語言生成優化場景。
格式:TXT、PDF、MOBI、EPUB
5.大模型訓練-中文語料
中文劇本
數據詳情:包含2.3萬本優質中文劇本,覆蓋電視劇、電影、話劇、舞臺劇等。
可用于故事生成 agent 提升和模型對話 prompt。
格式:TXT、EXCEL
多輪對話
數據詳情:收錄1467.3萬組多輪對話文本,對話內容包含客服、情感及日常對話,占比為 1:1:1。
適用于智能客服系統、聊天機器人、虛擬助理與個人助手模型 prompt。
格式:JSON、TXT
裁判文書數據
數據詳情:包含8000萬條法律文書數據,覆蓋民事、刑事、行政等全部案由類型。
適用于提升模型法律條文理解能力、裁判邏輯推理和文書生成等的專屬垂類領域數據。
格式:EXCEL
碩博論文
數據詳情:包含23萬篇理工科中文碩博論文,覆蓋基礎科學、工程技術、信息科技等前沿領域。
可用于提升模型理解推理能力,推動跨領域應用。
格式:PDF
6.大模型訓練-多垂直領域知識教材書籍數據
管理科學知識
數據詳情:收錄303冊管理科學教材數據,數據包含管理學科相關文獻,以及管理學科知識圖譜。
適用于教育大模型訓練、智能教學系統開發與跨語言教育A1應用場景。
格式:PDF、EXCEL、Word
K12中英文教輔教材
數據詳情:收錄11655冊中英文教輔教材數據,數據包含10225冊中文教輔與1430冊英文教輔的K12全學科內容。
適用于教育大模型訓練、智能教學系統開發及跨語言教育 AI 應用場景。
格式:PDF
工業書籍
數據詳情:收錄3.4萬冊專業工業書籍數據,數據覆蓋多個領域的中英文專業書籍。
適用于工業AI大模型訓練、智能決策系統構建與專業技術知識服務場景。
格式:PDF、Word
7.大模型訓練-小語種數據
小語種數字專利
數據詳情:收錄131.4萬條小語種專業數據,覆蓋多國語言,涉及各個技術領域。
適用于大模型跨文化理解訓練、多語言模式適應及專業領域AI應用場景。
格式:PDF
小語種平行語料
數據詳情:收錄110萬條小語種平行語料數據,數據包含包括阿拉伯語、波蘭語、德語、俄語、法語、馬來語、泰語、土耳其語、西班牙語、意大利語、英語共11 國語言文本。
適用于跨文化理解訓練、多語言模式適應及小語種 AI 應用場景
格式:EXCEL
隨著AI應用場景的不斷拓展,對高質量、多語言、細分專業領域的數據資源需求也將持續增長。
景聯文科技將繼續秉持“成為人工智能的核心引擎,讓每一比特數據釋放AI的無限可能”的愿景,不斷優化數據產品體系,滿足日益復雜和多元的模型訓練需求。
如需了解更多關于本次數據集的技術參數、樣本示例或定制化服務,請訪問我們的官網或聯系專屬商務經理。
讓我們攜手打造更加智能、高效的人工智能未來!