數據科學與大數據是什么意思_什么是數據科學?

數據科學與大數據是什么意思

Data Science is an interdisciplinary field that uses a combination of code, statistical analysis, and algorithms to gain insights from structured and unstructured data.

數據科學是一個跨學科領域,它結合使用代碼,統計分析和算法來從結構化和非結構化數據中獲取見解。

Let’s break this down.

讓我們分解一下。

We’re all kind of familiar with data. It’s stored information. Anything we read online is data. Anything we do that is recorded can be a data point. So a “data scientist” is someone who works with data and uses a structured approach to find insight from a set of data. They do this in any number of fields, from healthcare, to marketing, to medical sciences. The focus of a data scientist is on mathematical models — statistics and algorithms. An algorithm can be defined as “a process or set of rules to be followed in calculations or other problem-solving operations, especially by a computer.” You can think about an algorithm as a set of steps to follow in order to solve a problem, like a Rubik’s cube. If you think back to high school algebra, you might remember the formula for a line on a graph:

我們都非常熟悉數據。 它存儲了信息。 我們在線閱讀的都是數據。 我們所做的任何記錄都會成為數據點。 因此,“數據科學家”是從事數據工作并使用結構化方法從一組數據中尋找見解的人。 他們在醫療,營銷,醫學等許多領域都做到這一點。 數據科學家的重點是數學模型-統計和算法。 可以將算法定義為“在計算或其他問題解決操作(尤其是計算機)中要遵循的過程或一組規則”。 您可以將算法視為解決問題的一組步驟,例如魔方。 如果回想起高中代數,您可能還記得圖中的一條線的公式:

y = mx + b

y = mx + b

You can determine the slope of a line based on data points and this basic algebraic equation. If you start with two data points, you can predict what a “y” value would be, given an “x” value.

您可以根據數據點和此基本代數方程確定直線的斜率。 如果從兩個數據點開始,則可以在給定“ x”值的情況下預測“ y”值。

From this we can use the equation to extrapolate an equation.

由此,我們可以使用方程式外推方程式。

Image for post

Which will indicate that if we have an “x” value of 1, the algorithm provides a “y” value of 2.1.

這將表明如果我們的“ x”值為1,則算法提供的“ y”值為2.1。

This is basically the kind of problem that a data scientist tries to solve, but with things like what will make a customer purchase a product and how a stock portfolio will perform over time, which are much more complicated and involve way more factors than a simple algebra. They use code and other technologies to build these models, and are constantly working to improve their predictions. They are working for companies like Spotify, Yelp, and Google.

基本上,這是數據科學家試圖解決的問題,但是諸如使客戶購買產品的原因以及隨著時間的推移股票投資組合的績效之類的事情要復雜得多,涉及的因素要比簡單的多。代數 他們使用代碼和其他技術來構建這些模型,并一直在努力改善他們的預測。 他們為Spotify,Yelp和Google等公司工作。

The thing about Data Science, though, is that it is a new field that is still getting defined. While every company seems to want a Senior Data Scientist, the job descriptions can vary incredibly. It’s also a weird field where some companies want a super experienced person with a PhD and others are excited to employ someone at an entry level, someone who may have completed a Boot Camp. One thing I like about this field, is that if you study Data Science, you learn a bunch of skills that can be used in other, similar, roles. For example, a Data Analyst might need to know about statistics, data cleaning, Big Data, and APIs. A Data Engineer should understand the same things, and what a Data Scientist needs to do in order to support them, as well as be able to code efficiently in multiple languages (I use Python and SQL), understand Amazon Web Services, or another Cloud based platform, and other basic data related things.

但是,關于數據科學的問題是,這是一個仍在定義中的新領域。 盡管每個公司似乎都希望有一位高級數據科學家,但職位描述卻千差萬別。 這也是一個很奇怪的領域,有些公司希望擁有一名經驗豐富的博士學位的人,而另一些公司則興奮地聘請了入門級的人,這些人可能已經完成了新手訓練營。 我喜歡這個領域的一件事是,如果您學習數據科學,就會學到很多可以在其他類似角色中使用的技能。 例如,數據分析師可能需要了解統計信息,數據清理,大數據和API。 數據工程師應該理解相同的事物,以及數據科學家需要做什么才能支持它們,以及能夠以多種語言(我使用Python和SQL)進行高效編碼,了解Amazon Web Services或其他云基礎平臺和其他與基礎數據相關的事物。

Needless to say, there are a lot of opportunities and directions you can go in if you choose to learn Data Science. As a person working in data, you have the ability to provide insight to complex information about customers, you can help define how ethical your companies analytics or machine learning models are, you hold a lot of unique and interesting power. You are required to constantly be learning new things, solving new problems and troubleshooting odd inconsistencies.

不用說,如果您選擇學習數據科學,可以找到很多機會和方向。 作為數據工作人員,您可以洞悉有關客戶的復雜信息,可以幫助定義公司分析或機器學習模型的道德標準,并擁有許多獨特而有趣的功能。 您需要不斷學習新事物,解決新問題并解決奇怪的不一致問題。

If this is something you are interested in learning more about, you can check out TechCultivator on LinkedIn and Instagram. They are a company dedicated to helping underrepresented folks get rewarding data science and software development jobs through skill building, mentorship, networking and community.

如果您有興趣了解更多信息,可以在LinkedIn和Instagram上查看TechCultivator。 他們是一家致力于通過技能建設,指導,網絡和社區幫助代表性不足的人們獲得有價值的數據科學和軟件開發工作的公司。

Image for post

翻譯自: https://medium.com/@edithiyerhernandez/what-is-data-science-678feaa8a282

數據科學與大數據是什么意思

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/388160.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/388160.shtml
英文地址,請注明出處:http://en.pswp.cn/news/388160.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C#制作、打包、簽名、發布Activex全過程

一、前言 最近有這樣一個需求,需要在網頁上面啟動客戶端的軟件,軟件之間的通信、調用,單單依靠HTML是無法實現了,因此必須借用Activex來實現。由于本人主要擅長C#,自然本文給出了用C#實現的范例,本文的預期…

用Python創建漂亮的交互式可視化效果

Plotly is an interactive Python library that provides a wide range of visualisations accessible through a simple interface.Plotly是一個交互式Python庫,通過簡單的界面即可提供廣泛的可視化效果。 There are many different visualisation libraries avai…

CCF 201809-1 買菜

問題描述| 試題編號: | 201809-2 | | 試題名稱: | 買菜 | | 時間限制: | 1.0s | | 內存限制: | 256.0MB | 問題描述 小H和小W來到了一條街上,兩人分開買菜,他們買菜的過程可以描述為,去店里買一…

筆試題③

1.線程間通信 handler機制 2.AsyncTask 異步任務 3.HandlerThread 子線程中創建了一個 Looper對象 可以在子線程里使用消息機制 IntentService 帶了HandlerThread 并且創建了一個子線程的handler 在服務中 創建子線程執行耗時操作 耗時操作執行結束之后服務退出 如果想在Serv…

Hadoop 2.0集群配置詳細教程

Hadoop 2.0集群配置詳細教程 前言 Hadoop2.0介紹 Hadoop是 apache 的開源 項目,開發的主要目的是為了構建可靠,可拓展 scalable ,分布式的系 統, hadoop 是一系列的子工程的 總和,其中包含 1. hadoop common &#xff…

php如何減緩gc_管理信息傳播-使用數據科學減緩錯誤信息的傳播

php如何減緩gcWith more people now than ever relying on social media to stay updated on current events, there is an ethical responsibility for hosting companies to defend against false information. Disinformation, which is a type of misinformation that is i…

[UE4]刪除UI:Remove from Parent

同時要將保存UI的變量清空,以釋放占用的系統內存 轉載于:https://www.cnblogs.com/timy/p/9842206.html

MySQL基礎部分總結

MySQL 1、選擇數據庫 use dbnameshow databases;2、數據表 show tablesmysql> show columns from customers;mysql> desc customers;3、show 語句 show statusshow create databasesshow create tableshow grants4、select 檢索 4.1.1版本后不再區分大小寫,但…

BZOJ2503: 相框

Description P大的基礎電路實驗課是一個無聊至極的課。每次實驗,T君總是提前完成,管理員卻不讓T君離開,T君只能干坐在那兒無所事事。先說說這個實驗課,無非就是把幾根導線和某些元器件(電阻、電容、電感等)…

泰坦尼克號 數據分析_第1部分:泰坦尼克號-數據分析基礎

泰坦尼克號 數據分析My goal was to get a better understanding of how to work with tabular data so I challenged myself and started with the Titanic -project. I think this was an excellent way to learn the basics of data analysis with python.我的目標是更好地了…

Imperva開源域目錄控制器,簡化活動目錄集成

Imperva已公開發布域目錄控制器(Domain Directory Controller,DDC)的源代碼,這是一個Java庫,用于簡化常見的Active Directory集成。 與Java的LdapContext不同,這個庫構建在Apache Directory LDAP之上&#…

2018.10.24 NOIP模擬 小 C 的序列(鏈表+數論)

傳送門 考慮到a[l],gcd(a[l],a[l1]),gcd(a[l],a[l1],a[l2])....gcd(a[l]...a[r])a[l],gcd(a[l],a[l1]),gcd(a[l],a[l1],a[l2])....gcd(a[l]...a[r])a[l],gcd(a[l],a[l1]),gcd(a[l],a[l1],a[l2])....gcd(a[l]...a[r])是可以分成最多logloglog段且段內的數都是相同的。 那么我們用…

vba數組dim_NDArray — —一個基于Java的N-Dim數組工具包

vba數組dim介紹 (Introduction) Within many development languages, there is a popular paradigm of using N-Dimensional arrays. They allow you to write numerical code that would otherwise require many levels of nested loops in only a few simple operations. Bec…

Nodejs教程08:同時處理GET/POST請求

示例代碼請訪問我的GitHub: github.com/chencl1986/… 同時處理GET/POST請求 通常在開發過程中,同一臺服務器需要接收多種類型的請求,并區分不同接口,向客戶端返回數據。 最常用的方式,就是對請求的方法、url進行區分判…

關于position的四個標簽

四個標簽是static,relative,absolute,fixed。 static 該值是正常流,并且是默認值,因此你很少看到(如果存在的話)指定該值。 relative:框的位置能夠相對于它在正常流中的位置有所偏移…

python算法和數據結構_Python中的數據結構和算法

python算法和數據結構To至 Leonardo da Vinci達芬奇(Leonardo da Vinci) 介紹 (Introduction) The purpose of this article is to give you a panorama of data structures and algorithms in Python. This topic is very important for a Data Scientist in order to help …

CSS:元素塌陷問題

2019獨角獸企業重金招聘Python工程師標準>>> 描述: 在文檔流中,父元素的高度默認是被子元素撐開的,也就是子元素多高,父元素就多高。但是當子元素設置浮動之后,子元素會完全脫離文檔流,此時將會…

Celery介紹及常見錯誤

celery 情景:用戶發起request,并等待response返回。在本些views中,可能需要執行一段耗時的程序,那么用戶就會等待很長時間,造成不好的用戶體驗,比如發送郵件、手機驗證碼等。 使用celery后,情況…

python dash_Dash是Databricks Spark后端的理想基于Python的前端

python dash📌 Learn how to deliver AI for Big Data using Dash & Databricks this recorded webinar with Peter Kim of Plotly and Prasad Kona of Databricks.this通過Plotly的Peter Kim和Databricks的Prasad Kona的網絡研討會了解如何使用Dash&#xff06…

js里的數據類型轉換

1、類型轉換 轉換為字符串 - String(x)- x.toString(x, 10)- x 轉換為數字 - Number(x)- parseInt(x, 10) - parseFloat(x) - x - 0- x 轉換為boolean - Boolean(x)- !!x 2、falsy值(false) - 0- NaN- - null- undefined 3、內存圖 - object存儲的是地址…