每周編輯精選|MathPile 數學推理語料庫開源、協和眼科牽頭用 AI 助力 13 種眼底疾病檢測

近日,上海交通大學生成式人工智能研究實驗室 (GAIR),開源了專為數學領域量身定制的高質量且多樣化的預訓練數據集 MathPile,及其可商用版本 MathPile-Commercial,現在在 hyper.ai 官網可以下載啦!還有更多如 MathVista、Math23K 等熱門數學數據集等你使用哦~

2 月 19 日-2 月 23 日,hyper.ai 官網更新速覽

  • 優質公共數據集:10 個

  • AI4S 論文案例:4 篇

  • 熱門百科詞條:10 條

訪問官網:hyper.ai

公開數據集精選

1. MathPile 數學推理預訓練語料庫

上海交通大學生成式人工智能實驗室推出了 MathPile 數據集。這是一套專門針對數學領域的高質量、多樣化預訓練語料庫,其中包含約 95 億 tokens,旨在提升大模型在數學推理方面的能力。

直接使用

https://hyper.ai/datasets/29543

2. MathPile-Commercial 數學推理預訓練語料(可商用版)

MathPile-Commercial 是 MathPile 的商業用途版本,是通過剔除 MathPile 中禁止商業用途的文檔獲得的(最新版本,即 v0.2)。具體來說,研究團隊對源數據進行了非商業用途檢測,利用 arXiv 源的元數據中的許可信息,并對其他源采用了關鍵字匹配。

直接使用

https://hyper.ai/datasets/29545

3. AI 生成的圖像數據集

該數據集包含由 Copilot 生成的 19 張男孩圖像。Copilot 是一個人工智能伴侶,可以創建富有想象力和創新的內容。這些圖像適用于面部和姿勢檢測任務,因為它們的面部表情、姿勢、背景、光照和遮擋各不相同。

直接使用

https://hyper.ai/datasets/29527

4. AI 生成的多樣化肖像數據集

該數據集包含 140 張由先進 AI 算法精心制作的高質量圖像,其中有 70 張女性肖像和 70 張男性肖像。該數據集中的每張圖像都證明了人工智能在模仿人類外表的復雜性方面具有非凡的能力。

直接使用

https://hyper.ai/datasets/29529

5. THUCNews 中文文本分類數據集

THUCNews 是根據新浪新聞 RSS 訂閱頻道 2005~2011 年間的歷史數據篩選過濾生成的,包含 74 萬篇新聞文檔 (2.19 GB) ,均為 UTF-8 純文本格式。研究團隊在原始新浪新聞分類體系的基礎上,重新整合劃分出了 14 個候選分類類別:財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、游戲、娛樂。

直接使用

https://hyper.ai/datasets/29521

6. ShareGPT 90k 中英文雙語人機問答數據集

ShareGPT-Chinese-English-90k 是中英文平行雙語優質人機問答數據集,覆蓋真實復雜場景下的用戶提問數據。該數據集可用于訓練高質量的對話模型。

直接使用

https://hyper.ai/datasets/29523

7. SMP-2017 中文對話意圖識別數據集

該數據集為 SMP2017 中文人機對話技術評測 (ECDT) 任務一數據集。該評測旨在促進中文人機對話系統相關研究的發展。

直接使用

https://hyper.ai/datasets/29515

8. 今日頭條文本分類數據集

該數據集為今日頭條中文新聞(短文本)分類數據集。數據來源為今日頭條客戶端。共包含 15 個分類,382,688 條文本,采集時間為 2018 年 05 月。

直接使用

https://hyper.ai/datasets/29517

更多本周更新數據集,請訪問

https://hyper.ai/datasets

ScienceAI 論文案例精選

1. 協和眼科牽頭 ,5 家眼科中心同發力,用 AI 助力 13 種眼底疾病檢測

眼科疾病的診斷高度依賴于圖像識別,眼科專業非常適合深度學習等技術的應用。為進一步挖掘深度學習在眼底疾病診斷中的潛在價值,由北京協和醫院眼科主任陳有信牽頭、全國 5 家眼科中心與北京致遠慧圖科技有限公司、中國人民大學信息學院李錫榮教授合作,共同開發了深度學習系統。該系統助力初級眼科醫生的診斷一致性提高了約 12%,為 13 種主要眼底疾病的自動檢測提供了一種新的方法。相關論文已發表于「Nature」期刊。

查看完整報道

https://hyper.ai/news/29549

2. 超 5 萬人參與,浙大吳息鳳教授團隊新作:健康與辦公場所綠化水平有關

生態環境對人類健康的影響是潛移默化的。浙江大學公共衛生學院吳息鳳教授課題組通過卷積神經網絡模型,基于街景圖像的綠色視圖指數對可見綠色暴露進行評估,進而探討了工作場所可視綠化水平與成年人代謝綜合征之間是否存在有益關聯。課題組通過邏輯回歸模型對杭州市 5 萬多名成年人的工作環境室外可視綠化水平進行評估,證實了兩者間的有益關聯。相關成果已發表于「Environment International」期刊。

查看完整報道

https://hyper.ai/news/29559

3. 上海交大 AI4S 團隊提出「智能化科學設施」構想,建立跨學科 AI 科研助手

上海交通大學人工智能研究院 AI for Science 團隊楊小康教授等人提出了一種智能化科學設施的建設構想,形成科學領域大模型、生成式模擬與反演、自主智能無人實驗及大規模可信科研協作等創新功能。相關研究成果已發表于「中國科學院院刊」。

查看完整報道

https://hyper.ai/news/29559

4. 亞馬遜工程師嚴選,超 40 篇 LLM 論文匯總

越來越多的企業、傳統行業開始探索如何應用大語言模型與自身業務相結合,快速膨脹的市場需求也反向推動了相關領域的研究進一步深化、創新,arXiv 等平臺上的論文更新也愈發頻繁。為了幫助大家更快檢索高價值論文,亞馬遜工程師 Eugene Yan 等人建立了一個語言模型論文閱讀清單,持續分享前沿論文,目前已經匯總了 40 余篇高質量論文。

查看完整論文匯總

https://hyper.ai/news/29582

熱門百科詞條精選

  1. 召回率 Recall Rate

  2. 人類反饋強化學習 RLHF

  3. 通用人工智能 AGI

  4. 檢索增強生成 RAG

  5. 神經輻射場 NeRF

這里匯編了數百條 AI 相關詞條,讓你在這里讀懂「人工智能」:

https://hyper.ai/wiki


以上就是本周編輯精選的全部內容,如果你有想要收錄 hyper.ai 官方網站的資源,也歡迎留言或投稿告訴我們哦!

下周再見!

關于 HyperAI超神經 (hyper.ai)

HyperAI超神經 (hyper.ai) 是國內領先的人工智能及高性能計算社區,致力于成為國內數據科學領域的基礎設施,為國內開發者提供豐富、優質的公共資源,截至目前已經:

  • 為 1200+ 公開數據集提供國內加速下載節點

  • 收錄 300+ 經典及流行在線教程

  • 解讀 100+ AI4Science 論文案例

  • 支持 500+ 相關詞條查詢

  • 托管國內首個完整的 Apache TVM 中文文檔

訪問官網開啟學習之旅

https://hyper.ai/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/697319.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/697319.shtml
英文地址,請注明出處:http://en.pswp.cn/news/697319.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

(十四)【Jmeter】線程(Threads(Users))之開放模型線程組(Open Model Thread Group)

簡述 操作路徑如下: 開放模型線程組(Open Model Thread Group) 是 JMeter 5.5 版本中引入的一個新特性,它允許用戶創建具有可變負載的負載配置文件。相較于傳統的線程組,開放模型線程組提供了更多的靈活性和動態調整的能力。 優點: 靈活性:允許測試人員根據測試需求動…

python 提取PDF文字

使用pdfplumber,不能提取掃描的pdf和插入的圖片。 import pdfplumberfile_path rD:\UserData\admindesktop\官方文檔\1903_Mesh-Models-Overview_FINAL.pdf with pdfplumber.open(file_path) as pdf:page pdf.pages[0]print(page.extract_text()) # 所以文字prin…

Verilog刷題筆記33

題目: You are given a four-bit input vector in[3:0]. We want to know some relationships between each bit and its neighbour: out_both: Each bit of this output vector should indicate whether both the corresponding input bit and its neighbour to t…

Kafka3.x進階

來源:B站 目錄 Kafka生產者生產經驗——生產者如何提高吞吐量生產經驗——數據可靠性生產經驗——數據去重數據傳遞語義冪等性生產者事務 生產經驗——數據有序生產經驗——數據亂序 Kafka BrokerKafka Broker 工作流程Zookeeper 存儲的 Kafka 信息Kafka Broker 總…

戲曲文化苑|戲曲文化苑小程序|基于微信小程序的戲曲文化苑系統設計與實現(源碼+數據庫+文檔)

戲曲文化苑小程序目錄 目錄 基于微信小程序的戲曲文化苑系統設計與實現 一、前言 二、系統功能設計 三、系統實現 1、微信小程序前臺 2、管理員后臺 (1)戲曲管理 (2)公告信息管理 (3)公告類型管理…

PostgreSQL 的實體化視圖介紹

PostgreSQL 實體化視圖提供一個強大的機制,通過預先計算并將查詢結果集存儲為物理表來提高查詢性能。本教程將使用 DVD Rental Database 數據庫作為演示例子,指導你在 PostgreSQL中創建實體化視圖。 了解實體化視圖 實體化視圖是查詢結果集的快照&…

docker安裝PostGIS擴展

去docker倉庫查找你想要安裝的鏡像版本,并pull下來 我下載的版本: [rootlocalhost ~]# docker pull postgis/postgis:12-3.2運行容器 [rootlocalhost ~]# docker run --name postgis --privilegedtrue --restartalways -e POSTGRES_USER12345678 -e P…

【高德地圖】Android高德地圖初始化定位并顯示小藍點

&#x1f4d6;第3章 初始化定位并顯示小藍點 ?第1步&#xff1a;配置AndroidManifest.xml?第2步&#xff1a;設置定位藍點?第3步&#xff1a;初始化定位?完整代碼 ?第1步&#xff1a;配置AndroidManifest.xml 在application標簽下聲明Service組件 <service android:n…

FPS游戲之漫談截幀技術

什么是截幀技術 簡而言之就是截取當前屏幕的內容&#xff0c;然后一般是以圖片的形式存入本地 為什么需要這個技術 因為有需求 比如我們需要把我牛逼的戰績炫耀下&#xff0c;是不是以圖文的形式分享到朋友圈是不是最直觀&#xff1f;&#xff1f;&#xff1f; 在Unity引擎中…

Aigtek高壓放大器是什么東西做的

在許多電子應用中&#xff0c;需要將低電壓信號放大到較高電壓以滿足特定的需求。為了實現這個目標&#xff0c;高壓放大器被廣泛采用。高壓放大器是一種專用電子設備&#xff0c;使用特定的電路和器件來增益輸入信號的電壓。它通常由以下幾個主要組成部分構成。 電源供應 高壓…

Linux編譯器---gcc/g++使用詳解

目錄 前言 gcc/g介紹 gcc/g的編譯指令&#xff08;以gcc為例&#xff09; ?編輯 gcc選項 預處理(進行宏替換) 編譯&#xff08;生成匯編&#xff09; 匯編&#xff08;生成機器可識別代碼&#xff09; 鏈接&#xff08;生成可執行文件或庫文件&#xff09; 函數庫 概念 …

網絡金融治理模式下第三方支付風險與應對路徑

隨著經濟社會的高速發展&#xff0c;消費模式日益多樣化&#xff0c;其中&#xff0c;第三方支付作為一種便捷的消費支付模式&#xff0c;在順應時代發展潮流中應運而生。這種支付模式通過中國人民銀行批準&#xff0c;持有《支付業務許可證》&#xff0c;并與銀行簽約&#xf…

訓練yolov8+SAM的過程記錄

1-首先將拿到的數據集進行重新命名(dataset1:是經過校色之后裁剪的圖片;dataset2:原圖) 圖片文件從1.jpg開始命名的代碼: folder_path = rC:\Users\23608\Desktop\Luli_work\data\fanStudent\tongueseg\Fan\Fan\.jpg new_folder = rC:\Users\23608\Desktop\Luli_work\da…

stable diffusion官方版本復現

踩了一些坑&#xff0c;來記錄下 環境 CentOS Linux release 7.5.1804 (Core) 服務器RTX 3090 復現流程 按照Stable Diffusion的readme下載模型權重、我下載的是stable-diffusion-v1-4 版本的 1 因為服務器沒法上huggingface&#xff0c;所以得把權重下載到本地&#xff…

初識表及什么是數據表

一、了解表 1.1.概述 表是處理數據和建立關系型數據庫及應用程序的基本單元&#xff0c;是構成數據庫的基本元素之一&#xff0c;是數據庫中數據組織并儲存的單元&#xff0c;所有的數據都能以表格的形式組織&#xff0c;目的是可讀性強。 1.2.表結構簡述 一個表中包括行和列…

當項目經理的一定要考PMP嘛?

PMP資格認證并不是強制性要求&#xff0c;但強烈建議考慮獲取該資格&#xff01;首先讓我們來了解一下PMP是什么&#xff0c;然后再談談為什么建議考取PMP資格的理由。 PMP&#xff08;Project Management Professional&#xff09;是項目管理專業人員的資格認證。該認證由全球…

SCI一區 | Matlab實現GAF-PCNN-MSA格拉姆角場和雙通道PCNN融合注意力機制的多特征分類預測

SCI一區 | Matlab實現GAF-PCNN-MSA格拉姆角場和雙通道PCNN融合注意力機制的多特征分類預測 目錄 SCI一區 | Matlab實現GAF-PCNN-MSA格拉姆角場和雙通道PCNN融合注意力機制的多特征分類預測效果一覽基本介紹模型描述程序設計參考資料 效果一覽 基本介紹 1.【SCI一區級】Matlab實…

老子云3D資源服務與應用平臺詳解

老子云平臺定位 老子云目標客群 老子云平臺架構 老子云平臺價值 核心優勢 -AMRT標準格式 -自動模型輕量化 -持續精進的底層技術算法 -千萬級輕量化3D資源素材市場 功能服務 -格式轉換 -蒙皮動畫輕量化 -傾斜攝影輕量化 -效果編輯器 -應用編輯器 -3D OFD應用 -A3D PPT -3D資源…

力扣日記2.22-【回溯算法篇】47. 全排列 II

力扣日記&#xff1a;【回溯算法篇】47. 全排列 II 日期&#xff1a;2023.2.22 參考&#xff1a;代碼隨想錄、力扣 47. 全排列 II 題目描述 難度&#xff1a;中等 給定一個可包含重復數字的序列 nums &#xff0c;按任意順序 返回所有不重復的全排列。 示例 1&#xff1a; 輸…

SpringBoot中定義了Bean,但是為什么依賴注入的時候注入不了

背景&#xff1a; 擴展RedisTemplate的實現的時候寫了這樣一段代碼&#xff1a; public class BusinessRedisTemplate extends RedisTemplate<String, String> {private final String prefix "business";public BusinessRedisTemplate (RedisConnectionFact…