數據庫:存儲過程_數據科學過程:摘要

數據庫:存儲過程

Once you begin studying data science, you will hear something called ‘data science process’. This expression refers to a five stage process that usually data scientists perform when working on a project. In this post I will walk through each of them, describe what is involved and what technologies are normally used.

一旦開始學習數據科學,您將聽到一種稱為“數據科學過程”的信息。 此表述是指數據科學家通常在執行項目時執行的五個階段的過程。 在這篇文章中,我將逐步介紹它們中的每一個,描述涉及的內容和通常使用的技術。

1.數據采集 (1. Data Acquisition)

When you are just studying data science, your data may be already given to you by your instructors. Also, you can find a lot of beautiful datasets on Kaggle.com or Google Dataset Search. In this case data acquisition is pretty simple, just download the dataset and you’re all set to go.

當您僅學習數據科學時,您的數據可能已經由您的講師提供給您。 另外,您可以在Kaggle.com或Google數據集搜索上找到許多精美的數據集 。 在這種情況下,數據采集非常簡單,只需下載數據集即可。

In real life it is a little trickier. To obtain data in a format you need you will probably be using API’s or web scraping and your basic knowledge of HTML in order to obtain everything you need. In one of my earlier posts I described how I obtained the data about beauty products from Sephora.com using Selenium and BeautifulSoup.

在現實生活中,這有點棘手。 要獲取您需要的格式的數據,您可能會使用API??或Web抓取以及HTML的基本知識來獲取所需的一切。 在我以前的一篇文章中,我描述了如何使用Selenium和BeautifulSoup從Sephora.com獲得有關美容產品的數據。

Technologies used: HTML, SQL, Selenium, BeautifulSoup.

使用的技術:HTML,SQL,Selenium,BeautifulSoup。

2.數據清理 (2. Data Cleaning)

Again, if the dataset was already given to you by your instructors, or you got it on one of the websites mentioned above, there’s a good chance that your data is already clean. However, in most cases there will be some cleaning required. You need to handle the missing values (and be smart about it), make sure that all the columns are in correct datatypes (date-time, integers, floats, strings, etc.), all column names don’t contain spaces (especially important if you’re using NLP to perform analysis and modeling). Check out my post Beginner’s guide to data cleaning for more information.

同樣,如果數據集已經由您的講師提供給您,或者您已在上述網站之一上獲得,則很有可能您的數據已經清理干凈。 但是,在大多數情況下,需要進行一些清潔。 您需要處理缺失的值(并對此有所了解),確保所有列的數據類型都正確(日期時間,整數,浮點數,字符串等),所有列名均不包含空格(尤其是空格)如果您要使用NLP進行分析和建模,則非常重要)。 查看我的文章數據清理初學者指南以獲取更多信息。

Technologies used: Pandas, NumPy

使用的技術:Pandas,NumPy

3. EDA (3. EDA)

EDA stands for Exploratory Data Analysis. At this stage of the process you need to get to know your data. What is the shape of the table? How many rows and columns there are? What are the data types (to make sure you cleaned properly)? How the numeric values are distributed? Is there some sort of correlation/multicollinearity? Is there class imbalance if you want to perform classification? You need to answer all these questions and more before you get to the next stage. I would just write down all the questions I have and try to answer them one by one. This stage is also very important if you are about to present the results to a non-technical audience. While exploring your data in a meaningful way, you will create beautiful visualizations. And someone with no background in math and coding will better respond to an interactive 3D map rather than to you saying “My adjusted R2 is 0.92!”.

EDA代表探索性數據分析。 在流程的此階段,您需要了解您的數據。 桌子的形狀是什么? 有多少行和幾列? 有哪些數據類型(以確保正確清理)? 數值如何分布? 有某種相關性/多重共線性嗎? 如果要進行分類,是否存在班級失衡 ? 在進入下一階段之前,您需要回答所有這些問題以及更多其他問題。 我只想寫下所有問題,然后嘗試一個接一個地回答。 如果您要向非技術人員介紹結果,那么此階段也非常重要。 在以有意義的方式瀏覽數據時,您將創建漂亮的可視化效果。 沒有數學和編碼背景的人會更好地響應交互式3D地圖,而不是您說“我的調整后R2為0.92!”。

Image for post
Screenshot from one of my project presentations
我的項目演示之一的屏幕截圖

Technologies used: Pandas, Numpy, Matplotlib, Seaborn, Plotly (GO and Express)

使用的技術:熊貓,Numpy,Matplotlib,Seaborn,Plotly(GO和Express)

4.建模 (4. Modeling)

This is the most fun part (IMO). After all the preparation you get to create a machine learning/deep learning model that will make some sort of predictions. This can be a simple linear regression, multiple regression, classification, time series, NLP analysis, or a huge computer vision project with image recognition. Describing how each and every one of these works is beyond the scope of this post, but check out my earlier post about how to talk about regression with babies and I’m-really-bad-at-math people.

這是最有趣的部分(IMO)。 完成所有準備工作后,您將創建一個可以進行某種預測的機器學習/深度學習模型。 這可以是簡單的線性回歸,多元回歸,分類,時間序列,NLP分析或具有圖像識別功能的大型計算機視覺項目。 描述每種方法的工作方式超出了本文的范圍,但是請查閱我之前的文章 ,該文章介紹了如何與嬰兒和我真的很糟糕的人談論回歸。

Technologies used: Scikit-Learn, SciPy, NumPy, Keras, Tensorflow, PyTorch, XGBoost, and many, many more (really depends on what you’re trying to model).

使用的技術:Scikit-Learn,SciPy,NumPy,Keras,Tensorflow,PyTorch,XGBoost等(取決于您要建模的內容)。

5.模型解釋與應用 (5. Model Interpretation and Applications)

The results of your model are probably going to look something like this:

您的模型結果可能看起來像這樣:

Image for post
Screenshot of my project: binary classification with XGBoost
我的項目的屏幕截圖:使用XGBoost進行二進制分類

What the heck does this all mean? You can’t just go to the investors and marketing department and say something like ‘my validation accuracy achieved 93% after I handled the class imbalance’ or ‘the proportion of the variance for a dependent variable y is explained by independent variables X by R-squared of 0.75’, you will immediately hear back “English, please!”.

這到底意味著什么? 您不能只去投資者和市場部門說“我在處理類不平衡問題后,我的驗證精度達到93%”或“因變量y的方差比例由自變量X乘以R來解釋”之類的說法平方為0.75',您將立即聽到“請英語!”的聲音。

The goal of the final stage of the data science process is to learn how to translate back from Math to English. It doesn’t matter how high or low your adjusted R2 or validation accuracy is if you can’t explain what it means in real life.

數據科學過程最后階段的目標是學習如何從數學翻譯回英語。 如果您無法解釋現實生活中的含義,那么調整后的R2或驗證精度的高低無關緊要。

The results of this whole data science process can be wrapped up in a presentation or they can be used to build a useful web application or some other sort of software. You will need basic knowledge of web development to make it happen, but if I built an app in four days, you certainly can too! Here’s a post about how I did it.

整個數據科學過程的結果可以包裝在演示文稿中,也可以用于構建有用的Web應用程序或某種其他類型的軟件。 您需要具備Web開發的基礎知識才能實現它,但是如果我在四天內構建了一個應用程序,您當然也可以! 這是關于我如何做的帖子 。

Technologies used: Your knowledge of math for data interpretation, Flask and Dash for creating a front-end.

使用的技術:您的數學知識可用于數據解釋,Flask和Dash可用于創建前端。

This is a quick summary of what a data science process looks like in a nutshell. Of course, there’s more to it in real life, but if you’re just learning, it’s a nice structure to stick to. Enjoy your data!

簡要概述了數據科學過程的外觀。 當然,現實生活中還有很多其他方面,但是如果您只是學習,那么這是一個值得堅持的好結構。 享受您的數據!

翻譯自: https://medium.com/the-innovation/data-science-process-summary-865abd16183d

數據庫:存儲過程

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/391214.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/391214.shtml
英文地址,請注明出處:http://en.pswp.cn/news/391214.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

901

901 轉載于:https://www.cnblogs.com/Forever77/p/11542129.html

leetcode 137. 只出現一次的數字 II(位運算)

給你一個整數數組 nums ,除某個元素僅出現 一次 外,其余每個元素都恰出現 三次 。請你找出并返回那個只出現了一次的元素。 示例 1: 輸入:nums [2,2,3,2] 輸出:3 示例 2: 輸入:nums [0,1,0,…

【p081】ISBN號碼

Time Limit: 1 second Memory Limit: 50 MB 【問題描述】 每一本正式出版的圖書都有一個ISBN號碼與之對應,ISBN碼包括9位數字、1位識別碼和3位分隔符,其規定格式如“x-xxx-xxxxx-x”,其中符號“-”是分隔符(鍵盤上的減號&#xff…

gitlab bash_如何編寫Bash一線式以克隆和管理GitHub和GitLab存儲庫

gitlab bashFew things are more satisfying to me than one elegant line of Bash that automates hours of tedious work. 沒有什么比讓Bash自動完成數小時繁瑣工作的Bash優雅系列令我滿意的了。 As part of some recent explorations into automatically re-creating my la…

寒假學習筆記(4)

2018.2.11 類中的常成員 關鍵字const,在類定義中聲明數據成員使用關鍵字限定,聲明時不能初始化。初始化列表,類中的任何函數都不能對常數據成員賦值,包括構造函數。為構造函數添加初始化列表是對常數據成員進行初始化的唯一途徑。…

svm和k-最近鄰_使用K最近鄰的電影推薦和評級預測

svm和k-最近鄰Recommendation systems are becoming increasingly important in today’s hectic world. People are always in the lookout for products/services that are best suited for them. Therefore, the recommendation systems are important as they help them ma…

Oracle:時間字段模糊查詢

需要查詢某一天的數據,但是庫里面存的是下圖date類型 將Oracle中時間字段轉化成字符串,然后進行字符串模糊查詢 select * from CAINIAO_MONITOR_MSG t WHERE to_char(t.CREATE_TIME,yyyy-MM-dd) like 2019-09-12 轉載于:https://www.cnblogs.com/gcgc/p/…

cogs2109 [NOIP2015] 運輸計劃

cogs2109 [NOIP2015] 運輸計劃 二分答案樹上差分。 STO鏈剖巨佬們我不會(太虛偽了吧 首先二分一個答案,下界為0,上界為max{路徑長度}。 然后判斷一個答案是否可行,這里用到樹上差分。 (闊以理解為前綴和??&…

leetcode 690. 員工的重要性(dfs)

給定一個保存員工信息的數據結構,它包含了員工 唯一的 id ,重要度 和 直系下屬的 id 。 比如,員工 1 是員工 2 的領導,員工 2 是員工 3 的領導。他們相應的重要度為 15 , 10 , 5 。那么員工 1 的數據結構是 [1, 15, [2]] &#x…

組件分頁_如何創建分頁組件

組件分頁The theme for week #17 of the Weekly Coding Challenge is:每周編碼挑戰第17周的主題是: 分頁 (Pagination) A Pagination Component is used on websites where you have more content available than you want to display at one time to the user so …

web-項目管理

總結 目的是 1.可查詢 2.方便團隊管理 每個成員都可以看到任何東西 項目 需求 計劃 bug 按模板來 1.問題描述 2.原因分析 3.解決方法 開發 提交代碼 按模板來 1.問題描述 2.原因分析 3.解決方法 打包 更新說明文件.txt 按模板來 一、更新說明 1.問題描述 1)計劃號 2…

cnn對網絡數據預處理_CNN中的數據預處理和網絡構建

cnn對網絡數據預處理In this article, we will go through the end-to-end pipeline of training convolution neural networks, i.e. organizing the data into directories, preprocessing, data augmentation, model building, etc.在本文中,我們將遍歷訓練卷積神…

leetcode 554. 磚墻

你的面前有一堵矩形的、由 n 行磚塊組成的磚墻。這些磚塊高度相同(也就是一個單位高)但是寬度不同。每一行磚塊的寬度之和應該相等。 你現在要畫一條 自頂向下 的、穿過 最少 磚塊的垂線。如果你畫的線只是從磚塊的邊緣經過,就不算穿過這塊磚…

django-rest-framework解析請求參數過程詳解

https://www.jb51.net/article/165699.htm 轉載于:https://www.cnblogs.com/gcgc/p/11544187.html

遞歸 和 迭代 斐波那契數列

#include "stdio.h"int Fbi(int i) /* 斐波那契的遞歸函數 */ { if( i < 2 ) return i 0 ? 0 : 1; return Fbi(i - 1) Fbi(i - 2); /* 這里Fbi就是函數自己&#xff0c;等于在調用自己 */ }int main() { int i; int a[40]; printf("迭代顯示斐波那契數列…

單元測試 python_Python單元測試簡介

單元測試 pythonYou just finished writing a piece of code and you are wondering what to do. Will you submit a pull request and have your teammates review the code? Or will you manually test the code? 您剛剛編寫了一段代碼&#xff0c;并且想知道該怎么做。 您…

飛行模式的開啟和關閉

2019獨角獸企業重金招聘Python工程師標準>>> if(Settings.System.getString(getActivity().getContentResolver(),Settings.Global.AIRPLANE_MODE_ON).equals("0")) { Settings.System.putInt(getActivity().getContentResolver(),Settings.Global.AIRPLA…

消解原理推理_什么是推理統計中的Z檢驗及其工作原理?

消解原理推理I Feel:我覺得&#xff1a; The more you analyze the data the more enlightened, data engineer you will become.您對數據的分析越多&#xff0c;您將變得越發開明。 In data engineering, you will always find an instance where you need to establish whet…

pytest+allure測試框架搭建

https://blog.csdn.net/wust_lh/article/details/86685912 https://www.jianshu.com/p/9673b2aeb0d3 定制化展示數據 https://blog.csdn.net/qw943571775/article/details/99634577 環境說明&#xff1a; jdk 1.8 python 3.5.3 allure-commandline 2.13.0 文檔及下載地址&…

lintcode433 島嶼的個數

島嶼的個數 給一個01矩陣&#xff0c;求不同的島嶼的個數。 0代表海&#xff0c;1代表島&#xff0c;如果兩個1相鄰&#xff0c;那么這兩個1屬于同一個島。我們只考慮上下左右為相鄰。 您在真實的面試中是否遇到過這個題&#xff1f; Yes樣例 在矩陣&#xff1a; [[1, 1, 0, …