近日,上海交通大學生成式人工智能研究實驗室 (GAIR),開源了專為數學領域量身定制的高質量且多樣化的預訓練數據集 MathPile,及其可商用版本 MathPile-Commercial,現在在 hyper.ai 官網可以下載啦!還有更多如 MathVista、Math23K 等熱門數學數據集等你使用哦~
2 月 19 日-2 月 23 日,hyper.ai 官網更新速覽:
-
優質公共數據集:10 個
-
AI4S 論文案例:4 篇
-
熱門百科詞條:10 條
訪問官網:hyper.ai
公開數據集精選
1. MathPile 數學推理預訓練語料庫
上海交通大學生成式人工智能實驗室推出了 MathPile 數據集。這是一套專門針對數學領域的高質量、多樣化預訓練語料庫,其中包含約 95 億 tokens,旨在提升大模型在數學推理方面的能力。
直接使用:
https://hyper.ai/datasets/29543
2. MathPile-Commercial 數學推理預訓練語料(可商用版)
MathPile-Commercial 是 MathPile 的商業用途版本,是通過剔除 MathPile 中禁止商業用途的文檔獲得的(最新版本,即 v0.2)。具體來說,研究團隊對源數據進行了非商業用途檢測,利用 arXiv 源的元數據中的許可信息,并對其他源采用了關鍵字匹配。
直接使用:
https://hyper.ai/datasets/29545
3. AI 生成的圖像數據集
該數據集包含由 Copilot 生成的 19 張男孩圖像。Copilot 是一個人工智能伴侶,可以創建富有想象力和創新的內容。這些圖像適用于面部和姿勢檢測任務,因為它們的面部表情、姿勢、背景、光照和遮擋各不相同。
直接使用:
https://hyper.ai/datasets/29527
4. AI 生成的多樣化肖像數據集
該數據集包含 140 張由先進 AI 算法精心制作的高質量圖像,其中有 70 張女性肖像和 70 張男性肖像。該數據集中的每張圖像都證明了人工智能在模仿人類外表的復雜性方面具有非凡的能力。
直接使用:
https://hyper.ai/datasets/29529
5. THUCNews 中文文本分類數據集
THUCNews 是根據新浪新聞 RSS 訂閱頻道 2005~2011 年間的歷史數據篩選過濾生成的,包含 74 萬篇新聞文檔 (2.19 GB) ,均為 UTF-8 純文本格式。研究團隊在原始新浪新聞分類體系的基礎上,重新整合劃分出了 14 個候選分類類別:財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、游戲、娛樂。
直接使用:
https://hyper.ai/datasets/29521
6. ShareGPT 90k 中英文雙語人機問答數據集
ShareGPT-Chinese-English-90k 是中英文平行雙語優質人機問答數據集,覆蓋真實復雜場景下的用戶提問數據。該數據集可用于訓練高質量的對話模型。
直接使用:
https://hyper.ai/datasets/29523
7. SMP-2017 中文對話意圖識別數據集
該數據集為 SMP2017 中文人機對話技術評測 (ECDT) 任務一數據集。該評測旨在促進中文人機對話系統相關研究的發展。
直接使用:
https://hyper.ai/datasets/29515
8. 今日頭條文本分類數據集
該數據集為今日頭條中文新聞(短文本)分類數據集。數據來源為今日頭條客戶端。共包含 15 個分類,382,688 條文本,采集時間為 2018 年 05 月。
直接使用:
https://hyper.ai/datasets/29517
更多本周更新數據集,請訪問:
https://hyper.ai/datasets
ScienceAI 論文案例精選
1. 協和眼科牽頭 ,5 家眼科中心同發力,用 AI 助力 13 種眼底疾病檢測
眼科疾病的診斷高度依賴于圖像識別,眼科專業非常適合深度學習等技術的應用。為進一步挖掘深度學習在眼底疾病診斷中的潛在價值,由北京協和醫院眼科主任陳有信牽頭、全國 5 家眼科中心與北京致遠慧圖科技有限公司、中國人民大學信息學院李錫榮教授合作,共同開發了深度學習系統。該系統助力初級眼科醫生的診斷一致性提高了約 12%,為 13 種主要眼底疾病的自動檢測提供了一種新的方法。相關論文已發表于「Nature」期刊。
查看完整報道:
https://hyper.ai/news/29549
2. 超 5 萬人參與,浙大吳息鳳教授團隊新作:健康與辦公場所綠化水平有關
生態環境對人類健康的影響是潛移默化的。浙江大學公共衛生學院吳息鳳教授課題組通過卷積神經網絡模型,基于街景圖像的綠色視圖指數對可見綠色暴露進行評估,進而探討了工作場所可視綠化水平與成年人代謝綜合征之間是否存在有益關聯。課題組通過邏輯回歸模型對杭州市 5 萬多名成年人的工作環境室外可視綠化水平進行評估,證實了兩者間的有益關聯。相關成果已發表于「Environment International」期刊。
查看完整報道:
https://hyper.ai/news/29559
3. 上海交大 AI4S 團隊提出「智能化科學設施」構想,建立跨學科 AI 科研助手
上海交通大學人工智能研究院 AI for Science 團隊楊小康教授等人提出了一種智能化科學設施的建設構想,形成科學領域大模型、生成式模擬與反演、自主智能無人實驗及大規模可信科研協作等創新功能。相關研究成果已發表于「中國科學院院刊」。
查看完整報道:
https://hyper.ai/news/29559
4. 亞馬遜工程師嚴選,超 40 篇 LLM 論文匯總
越來越多的企業、傳統行業開始探索如何應用大語言模型與自身業務相結合,快速膨脹的市場需求也反向推動了相關領域的研究進一步深化、創新,arXiv 等平臺上的論文更新也愈發頻繁。為了幫助大家更快檢索高價值論文,亞馬遜工程師 Eugene Yan 等人建立了一個語言模型論文閱讀清單,持續分享前沿論文,目前已經匯總了 40 余篇高質量論文。
查看完整論文匯總:
https://hyper.ai/news/29582
熱門百科詞條精選
-
召回率 Recall Rate
-
人類反饋強化學習 RLHF
-
通用人工智能 AGI
-
檢索增強生成 RAG
-
神經輻射場 NeRF
這里匯編了數百條 AI 相關詞條,讓你在這里讀懂「人工智能」:
https://hyper.ai/wiki
以上就是本周編輯精選的全部內容,如果你有想要收錄 hyper.ai 官方網站的資源,也歡迎留言或投稿告訴我們哦!
下周再見!
關于 HyperAI超神經 (hyper.ai)
HyperAI超神經 (hyper.ai) 是國內領先的人工智能及高性能計算社區,致力于成為國內數據科學領域的基礎設施,為國內開發者提供豐富、優質的公共資源,截至目前已經:
-
為 1200+ 公開數據集提供國內加速下載節點
-
收錄 300+ 經典及流行在線教程
-
解讀 100+ AI4Science 論文案例
-
支持 500+ 相關詞條查詢
-
托管國內首個完整的 Apache TVM 中文文檔
訪問官網開啟學習之旅:
https://hyper.ai/