kaggle數據集_Kaggle上有170萬份ArXiv文章的數據集

kaggle數據集

“arXiv is a free distribution service and an open-access archive for 1.7 million scholarly articles in the fields of physics, mathematics, computer science, quantitative biology, quantitative finance, statistics, electrical engineering and systems science, and economics”, as stated by its editors. ArXiv is a gold mine of knowledge. The more you dig into, the more valuable information you learn. It also makes it easier to follow the trends in science.

如前所述,“ arXiv是一項免費分發服務,是一個開放的檔案庫,可容納170萬條物理學,數學,計算機科學,定量生物學,定量金融,統計,電氣工程和系統科學以及經濟學領域的學術文章”。它的編輯。 ArXiv是知識的金礦。 您越深入研究,就會學到更多有價值的信息。 它還使跟蹤科學趨勢變得更加容易。

If you are into the field of data science, you have probably read articles on arXiv. If you haven’t done it yet, you should. Since data science is still an evolving field, new papers leading to new enhancements are published everyday. This makes the platforms like arXiv even more valuable.

如果您是數據科學領域的專家,您可能已經閱讀了有關arXiv的文章。 如果您還沒有這樣做,那應該。 由于數據科學仍然是一個不斷發展的領域,因此每天都會發表新的文章,以進行新的改進。 這使arXiv等平臺更具價值。

arXiv has made its entire corpus available as a dataset on Kaggle. The dataset contains relevant features such as article titles, authors, categories, content (both abstract and full text) and citations of 1.7 million scholarly articles avaiable on arXiv.

arXiv已將其整個語料庫作為數據集在Kaggle上提供。 數據集包含相關特征,例如文章標題,作者,類別,內容(摘要和全文)以及arXiv上170萬篇學術文章的引用。

This dataset is amazing resource to do machine learning and deep learning applications. Some of the applications that can be done are:

該數據集是進行機器學習和深度學習應用程序的絕佳資源。 可以完成的一些應用程序是:

  • Natural language processing (NLP) and understanding (NLU) use cases

    自然語言處理(NLP)和理解(NLU)用例
  • Text generation with deep learning using the content of articles

    使用文章內容通過深度學習生成文本
  • Predictive analytics such as category prediction of articles

    預測分析,例如文章類別預測
  • Trend analysis of topics in different scientific fields

    不同科學領域主題的趨勢分析
  • Paper recommender engine

    紙張推薦器引擎
Image for post
Photo by Skye Studios on Unsplash
Skye Studios在Unsplash上拍攝的照片

Deep learning models are data hungry. With the advancements in computing and processing, models can absorb more data than ever. Such a big dataset of scientific text is a highly valuable raw material for NLP, NLU and text generation. We may even have a model that writes scholarly articles on some topics. OpenAI’s new text generator, GPT-3, makes us think beyond the limits. Thus, I don’t think it is too far to have a deep learning model to write about science.

深度學習模型需要大量數據。 隨著計算和處理技術的進步,模型可以吸收比以往更多的數據。 如此龐大的科學文本數據集對于NLP,NLU和文本生成是非常有價值的原材料。 我們甚至可能有一個模型可以撰寫有關某些主題的學術文章。 OpenAI的新文本生成器GPT-3使我們的思考超出了極限。 因此,我認為擁有一個關于科學的深度學習模型并不過分。

Eleonora Presani, arXiv executive director said that “by offering the dataset on Kaggle we go beyond what humans can learn by reading all these articles and we make the data and information behind arXiv available to the public in a machine-readable format”. I definitely agree with her on the learning opportunities. Having all of these articles as a dataset allows to go beyond learning by reading. A ton of valuable insights can be discovered from this gold mine of articles by data analysis and machine learning. For instance, some not-so-obvious connections between different technologies can light up.

arXiv執行董事Eleonora Presani表示:“通過在Kaggle上提供數據集,我們超越了人類通過閱讀所有這些文章所能學到的知識,并以機器可讀的格式向公眾提供了arXiv背后的數據和信息”。 我絕對同意她的學習機會。 將所有這些文章作為數據集可以超越閱讀學習的范圍。 通過數據分析和機器學習,可以從這個金礦中找到大量有價值的見解。 例如,不同技術之間的一些不太明顯的連接可能會點亮。

Converting the entire arXiv articles to a well-structured and organized dataset has the potential to accelerate scientific discoveries. Science grows and advances by building on itself. There is no need to reinvent the wheel when we can focus on improving the wheel. By analyzing this arXiv dataset, we can obtain a concise summary of what science has been up to and shed light on what we need to focus going forward.

將整個arXiv文章轉換為結構合理且組織良好的數據集有可能加速科學發現。 科學在自身的基礎上發展壯大。 當我們可以專注于改進車輪時,無需重新發明車輪。 通過分析此arXiv數據集,我們可以獲得有關最新科學知識的簡明摘要,并闡明了今后我們需要關注的重點。

There is just so much to do with this dataset. I highly encourage you to at least take a look at it. You don’t have to create a machine learning product but it will also be a helpful resource for practicing data analysis and processing skills.

這個數據集有很多事情要做。 我強烈建議您至少看看它。 您不必創建機器學習產品,但它也將是練習數據分析和處理技能的有用資源。

Thank you for reading. Please let me know if you have any feedback.

感謝您的閱讀。 如果您有任何反饋意見,請告訴我。

  • https://www.kaggle.com/Cornell-University/arxiv?select=arxiv-metadata-oai-snapshot.json

    https://www.kaggle.com/Cornell-University/arxiv?select=arxiv-metadata-oai-snapshot.json

  • https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

    https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

翻譯自: https://towardsdatascience.com/a-dataset-of-1-7-million-arxiv-articles-available-on-kaggle-8a11075cac32

kaggle數據集

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/388762.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/388762.shtml
英文地址,請注明出處:http://en.pswp.cn/news/388762.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

java用接口實例化對象_[求助]迷茫中,接口可以直接實例化對象嗎?

可能是我沒有寫完整吧,還是我沒有理解好1 接口public interface SetAndGetWeight{public void setW(double weight);public double getW();}2 類class Train{SetAndGetWeight[] things;public void Train(SetAndGetWeight[] things){this.thingsthings;}public void returnTota…

異常作業2(2018.08.22)

2、編寫程序接收用戶輸入分數信息,如果分數在0—100之間, 輸出成績。如果成績不在該范圍內, 拋出異常信息,提示分數必須在0—100之間。 要求:使用自定義異常實現1 import java.util.Scanner;2 3 class AtException ext…

深度學習數據集中數據差異大_使用差異隱私來利用大數據并保留隱私

深度學習數據集中數據差異大The modern world runs on “big data,” the massive data sets used by governments, firms, and academic researchers to conduct analyses, unearth patterns, and drive decision-making. When it comes to data analysis, bigger can be bett…

C#圖片處理基本應用(裁剪,縮放,清晰度,水印)

前言 需求源自項目中的一些應用,比如相冊功能,通常用戶上傳相片后我們都會針對該相片再生成一張縮略圖,用于其它頁面上的列表顯示。隨便看一下,大部分網站基本都是將原圖等比縮放來生成縮略圖。但完美主義者會發現一些問題&#…

java建立tcp服務器長連接_B/S 架構下后端能否建立 TCP 長連接?

這種架構下,這樣的優化策略能實現嗎?能有作用嗎?php 服務端請求 ES tcp server 部分代碼$streamClient stream_socket_client("tcp://{$tcpHost}:{$tcpPort}", $errno, $errstr);// 該數組是所有業務線的分類結構,及每…

Java客戶端訪問HBase集群解決方案(優化)

測試環境&#xff1a;IdeaWindows10 準備工作&#xff1a; <1>、打開本地 C:\Windows\System32\drivers\etc&#xff08;系統默認&#xff09;下名為hosts的系統文件&#xff0c;如果提示當前用戶沒有權限打開文件&#xff1b;第一種方法是將hosts文件拖到桌面進行配置后…

WPF布局系統

WPF之路——WPF布局系統 前言 前段時間忙了一陣子Google Earth&#xff0c;這周又忙了一陣子架構師論文開題報告&#xff0c;現在終于有時間繼續<WPF之路>了。先回憶一下上篇的內容&#xff0c;在《從HelloWorld到WPF World》中&#xff0c;我們對WPF有了個大概的了解&am…

PostGIS容器運行

2019獨角獸企業重金招聘Python工程師標準>>> 獲取鏡像&#xff1a; docker pull mdillon/postgis 該 mdillon/postgis 鏡像提供了容器中運行Postgres&#xff08;內置安裝PostGIS 2.5&#xff09; 。該鏡像基于官方 postgres image&#xff0c;提供了多種變體&#…

小型數據庫_如果您從事“小型科學”工作,那么您是否正在利用數據存儲庫?

小型數據庫If you’re a scientist, especially one performing a lot of your research alone, you probably have more than one spreadsheet of important data that you just haven’t gotten around to writing up yet. Maybe you never will. Sitting idle on a hard dri…

BitmapEffect位圖效果是簡單的像素處理操作。它可以呈現下面幾種特殊效果。

BitmapEffect位圖效果是簡單的像素處理操作。它可以呈現下面幾種特殊效果。 BevelBitmapEffect 凹凸效果 BlurBitmapEffect 模糊效果 DropShadowBitmapEffect投影效果 EmbossBitmapEffect 浮雕效果 Outer…

AutoScaling 與函數計算結合,賦予更豐富的彈性能力

目前&#xff0c;彈性伸縮服務已經接入了負載均衡&#xff08;SLB&#xff09;、云數據庫RDS 等云產品&#xff0c;但是暫未接入 云數據庫Redis&#xff0c;有時候我們可能會需要彈性伸縮服務在擴縮容的時候自動將擴縮容涉及到的 ECS 實例私網 IP 添加到 Redis 白名單或者從 Re…

參考文獻_參考

參考文獻Recently, I am attracted by the news that Tanzania has attained lower middle income status under the World Bank’s classification, five years ahead of projection. Being curious on how they make the judgement, I take a look of the World Bank’s offi…

java語言靜態分析工具_PMD 6.16.0 發布,跨語言靜態代碼自動分析工具

PMD 6.16.0 發布了。PMD 是一個代碼分析器&#xff0c;能夠幫助發現常見的編程問題&#xff0c;比如未使用的變量、空的 catch 塊、不必要的對象創建等等。最初僅支持 Java 代碼&#xff0c;目前還可支持 JavaScript、Salesforce.com Apex 和 Visualforce、PLSQL、Apache Veloc…

B1922 [Sdoi2010]大陸爭霸 最短路

我一直都不會dij的堆優化&#xff0c;今天搞了一下。。。就是先弄一個優先隊列&#xff0c;存每個點的數據&#xff0c;然后這個題就加了一點不一樣的東西&#xff0c;每次的最短路算兩次&#xff0c;一次是自己的最短路&#xff0c;另一次是機關的最短路&#xff0c;兩者取最大…

WPF中的鼠標事件詳解

WPF中的鼠標事件詳解 Uielement和ContentElement都定義了十個以Mouse開頭的事件&#xff0c;8個以PreviewMouse開頭的事件&#xff0c;MouseMove,PreviewMouseMove,MouseEnter,Mouseleave的事件處理器類型都是MouseEventHandler類型。這些事件都具備對應得MouseEventargs對象。…

數據統計 測試方法_統計測試:了解如何為數據選擇最佳測試!

數據統計 測試方法This post is not meant for seasoned statisticians. This is geared towards data scientists and machine learning (ML) learners & practitioners, who like me, do not come from a statistical background.?他的職位是不是意味著經驗豐富的統計人…

前端介紹-35

前端介紹-35 # 前端## 一、什么是前端 前端即網站前臺部分&#xff0c;運行在PC端&#xff0c;移動端等瀏覽器上展現給用戶瀏覽的網頁。隨著互聯網技術的發展&#xff0c;HTML5&#xff0c;CSS3&#xff0c;前端框架的應用&#xff0c;跨平臺響應式網頁設計能夠適應各種屏幕…

spring的幾個通知(前置、后置、環繞、異常、最終)

1、沒有異常的 2、有異常的 1、被代理類接口Person.java 1 package com.xiaostudy;2 3 /**4 * desc 被代理類接口5 * 6 * author xiaostudy7 *8 */9 public interface Person { 10 11 public void add(); 12 public void update(); 13 public void delete();…

每個Power BI開發人員的Power Query提示

If someone asks you to define the Power Query, what should you say? If you’ve ever worked with Power BI, there is no chance that you haven’t used Power Query, even if you weren’t aware of it. Therefore, one could easily say that Power Query is the “he…

c# PDF 轉換成圖片

1.新建項目 2.新增一個新文件夾“lib”&#xff08;主要是為了存放引用的dll&#xff09; 3.將“gsdll32.dll 、PDFLibNet.dll 、PDFView.dll”3個dll添加到文件夾中 4.項目添加“PDFLibNet.dll 、PDFView.dll”2個類庫的引用&#xff0c;并將gsdll32.dll 拷貝到項目生產根…