os.popen read()報編碼錯誤_數據科學家易犯的十大編碼錯誤,你中招了嗎?

選自 Medium

作者:Norm Niemer

機器之心編譯

參與:李詩萌、王淑婷

數據科學家比軟件工程師擅長統計,又比統計學家擅長軟件工程。聽起來牛逼轟轟,事實卻是,許多數據科學家有統計學背景,卻沒有什么軟件工程方面的經驗,因此在編碼時容易犯一些簡單的錯誤。作為一名高級數據科學家,本文作者總結了他在工作中常見數據科學家犯的十大錯誤。

0925a394cf72423c0ea3fdc837455387.png

我是一名高級數據科學家,在 Stackoverflow 的 python 編碼中排前 1%,而且還與眾多(初級)數據科學家一起工作。下文列出了我常見到的 10 個錯誤。

沒有共享代碼中引用的數據

數據科學需要代碼和數據。所以為了讓其他人能夠復現自己做出來的結果,你需要提供代碼中涉及的數據。這看起來很簡單,但許多人會忘記共享代碼中需要的數據。

import?pandas?as?pd
df1?=?pd.read_csv('file-i-dont-have.csv')?#?fails
do_stuff(df)

解決方案:用 d6tpipe 共享代碼中的數據文件,或者將數據文件上傳到 S3/網頁/Google 云等,還可以將數據文件保存到數據庫中,以便收件人檢索文件(但不要將數據添加到 git 中,這一點后面的內容會講到)。

硬編碼其他人無法訪問的路徑

和錯誤 1 類似,如果硬編碼其他人無法訪問的路徑,他們就沒法運行你的代碼,而且在很多地方都必須要手動修改路徑。Booo!

import?pandas?as?pd
df?=?pd.read_csv('/path/i-dont/have/data.csv')?#?fails
do_stuff(df)
#?or?
impor?os
os.chdir('c:\\Users\\yourname\\desktop\\python')?#?fails

解決方案:使用相對路徑、全局路徑配置變量或 d6tpipe,這樣其他人就可以輕易訪問你的數據了。

將數據和代碼混在一起

既然數據科學代碼需要數據,為什么不將代碼和數據存儲在同一個目錄中呢?但你運行代碼時,這個目錄中還會存儲圖像、報告以及其他垃圾文件。亂成一團!

├──?data.csv
├──?ingest.py
├──?other-data.csv
├──?output.png
├──?report.html
└──?run.py

解決方案:對目錄進行分類,比如數據、報告、代碼等。參閱 Cookiecutter Data Science 或 d6tflow 項目模板,并用問題 1 中提到的工具存儲以及共享數據。

  • Cookiecutter Data Science:https://drivendata.github.io/cookiecutter-data-science/#directory-structure

  • d6tflow 項目模板:https://github.com/d6t/d6tflow-template

用 Git 提交數據

大多數人現在都會版本控制他們的代碼(如果你沒有這么做那就是另一個問題了!)。在共享數據時,可能很容易將數據文件添加到版本控制中。對一些小文件來說這沒什么問題。但 git 無法優化數據,尤其是對大型文件而言。

git?add?data.csv

解決方案:使用問題 1 中提到的工具來存儲和共享數據。如果你真的需要對數據進行版本控制,請參閱 d6tpipe、DVC 和 Git Large File Storage。

  • DVC:https://dvc.org/

  • Git Large File Storage:https://git-lfs.github.com/

寫函數而不是 DAG

數據已經討論得夠多了,接下來我們談談實際的代碼。你在學編程時,首先學的就是函數,數據科學代碼主要由一系列線性運行的函數組成。這會引發一些問題,詳情請參閱「4 Reasons Why Your Machine Learning Code is Probably Bad。」

  • 地址:https://towardsdatascience.com/4-reasons-why-your-machine-learning-code-is-probably-bad-c291752e4953

def?process_data(data,?parameter):
????data?=?do_stuff(data)
????data.to_pickle('data.pkl')
data?=?pd.read_csv('data.csv')
process_data(data)
df_train?=?pd.read_pickle(df_train)
model?=?sklearn.svm.SVC()
model.fit(df_train.iloc[:,:-1],?df_train['y'])

解決方案:與其用線性鏈接函數,不如寫一組有依賴關系的任務。可以用 d6tflow 或者 airflow。

寫 for 循環

和函數一樣,for 循環也是你在學代碼時最先學的。這種語句易于理解,但運行很慢且過于冗長,這種情況通常表示你不知道用什么替代向量化。

x?=?range(10)
avg?=?sum(x)/len(x);?std?=?math.sqrt(sum((i-avg)**2?for?i?in?x)/len(x));
zscore?=?[(i-avg)/std?for?x]
#?should?be:?scipy.stats.zscore(x)
#?or
groupavg?=?[]
for?i?in?df['g'].unique():
????dfg?=?df[df[g']==i]
????groupavg.append(dfg['g'].mean())
#?should?be:?df.groupby('g').mean()

解決方案:NumPy、SciPy 和 pandas 都有向量化函數,它們可以處理大部分你覺得需要用 for 循環解決的問題。

沒有寫單元測試

隨著數據、參數或者用戶輸入的改變,你的代碼可能會中斷,而你有時候可能沒注意到這一點。這就會導致錯誤的輸出,如果有人根據你的輸出做決策的話,那么錯誤的數據就會導致錯誤的決策!

解決方案:用 assert 語句檢查數據質量。Pandas 也有相同的測試,d6tstack 可以檢查數據的獲取,d6tjoin 可以檢查數據的連接。檢查數據的示例代碼如下:

  • d6tstack:https://github.com/d6t/d6tstack

  • d6tjoin:https://github.com/d6t/d6tjoin/blob/master/examples-prejoin.ipynb

assert?df['id'].unique().shape[0]?==?len(ids)?#?have?data?for?all?ids?
assert?df.isna().sum()<0.9?#?catch?missing?values
assert?df.groupby(['g','date']).size().max()?==1?#?no?duplicate?values/date?
assert?d6tjoin.utils.PreJoin([df1,df2],['id','date']).is_all_matched()?#?all?ids?matched?

沒有注釋代碼

我明白你急著做分析。于是你把代碼拼湊起來得到結果,把結果交給你的客戶或者老板。一周之后他們找到你,問你「你能改掉 xyz 嗎?」或「你能更新一下結果嗎?」。然后你和自己的代碼大眼瞪小眼,既不記得你為什么要這么做,也不記得你做過什么。現在想象一下其他人運行這段代碼時的心情。

def?some_complicated_function(data):
????data?=?data[data['column']!='wrong']
????data?=?data.groupby('date').apply(lambda?x:?complicated_stuff(x))
????data?=?data[data['value']<0.9]
????return?data

解決方案:即便你已經完成了分析,也要花時間注釋一下你做過什么。你會感謝自己的,當然其他人會更加感謝你!這樣你看起來會更專業!

把數據存成 csv 或 pickle

說回數據,畢竟我們討論的是數據科學。就像函數和 for 循環一樣,CSV 和 pickle 文件也很常用,但它們其實并沒有那么好。CSV 不包含模式(schema),所以每個人都必須重新解析數字和日期。Pickle 可以解決這一點,但只能用在 Python 中,而且不能壓縮。這兩種格式都不適合存儲大型數據集。

def?process_data(data,?parameter):
????data?=?do_stuff(data)
????data.to_pickle('data.pkl')
data?=?pd.read_csv('data.csv')
process_data(data)
df_train?=?pd.read_pickle(df_train)

解決方案:用 parquet 或者其他帶有數據模式的二進制數據格式,最好還能壓縮數據。d6tflow 可以自動將數據輸出存儲為 parquet,這樣你就不用解決這個問題了。

  • parquet:https://github.com/dask/fastparquet

使用 Jupyter notebook

這個結論還有一些爭議——Jupyter notebook 就像 CSV 一樣常用。很多人都會用到它們。但這并不能讓它們變得更好。Jupyter notebook 助長了上面提到的許多不好的軟件工程習慣,特別是:

  1. 你會把所有文件存在一個目錄中;

  2. 你寫的代碼是自上而下運行的,而不是 DAG;

  3. 你不會模塊化你的代碼;

  4. 代碼難以調試;

  5. 代碼和輸出會混合在一個文件中;

  6. 不能很好地進行版本控制。

Jupyter notebook 很容易上手,但規模太小。

解決方案:用 pycharm 和/或 spyder。af0f17335a7ad6f507127563add8a231.png

原文鏈接:https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Ftop-10-coding-mistakes-made-by-data-scientists-bb5bc82faaee

本文為機器之心編譯,轉載請聯系本公眾號獲得授權

?------------------------------------------------

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報道:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/538252.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/538252.shtml
英文地址,請注明出處:http://en.pswp.cn/news/538252.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

linux怎么添加工作組,linux 用戶與工作組

在linux 里面&#xff0c;用戶的編號UID &#xff0c;也就是用戶的ID號。工作組的編號為GID 也就是工作組的ID 號 。1、用戶的分類超級用戶&#xff1a;root用戶&#xff0c;系統安裝過程中自動創建&#xff0c;UID 為0。普通用戶&#xff1a;操作權限受到限制的用戶id在 500-6…

MySQL5.7.12新密碼登錄方式及密碼策略

原文鏈接&#xff1a;http://www.cnblogs.com/jonsea/p/5510219.html --------------------------------------------------------------------------- 松門一枝花補充 最簡單的方法&#xff1a; 1、配置文件中把密碼策略關了。本文中間部分有介紹。 2、重啟服務 3、用my…

聚類分析在用戶行為中的實例_聚類分析案例之市場細分

聚類是將數據分類到不同的類或者簇這樣的一個過程&#xff0c;所以同一個簇中的對象有很大的相似性&#xff0c;而不同簇間的對象有很大的相異性。從統計學的觀點看&#xff0c;聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入…

linux 編譯system.img,android生成sysytem.img的命令過程

Fromhttp://xianghuaclm.blog.163.com/blog/static/6668783201110221486240/使用#file system.img輸出&#xff1a;system.img: Linux rev 0.0 ext2 filesystem data,UUID4eb0489c-647d-49d8-9111-94657b5fd342, volume name"system"。然而本人使用命令#mkyaffs2imag…

Hive的hiveserver2后臺開啟和關閉

前提&#xff1a;hive/bin配置了環境變量。如果沒有配置&#xff0c;cd到 hive目錄下的bin里&#xff0c;再執行。 開啟命令&#xff1a; nohup hive --service hiveserver2 & 產生的日志&#xff1a; 默認在&#xff1a; 用戶文件夾里 [rootmaster ~]# ll total 80 …

記一次,jvm 內存溢出

1、什么是內存泄漏內存泄漏是指&#xff0c;有未被釋放的java對象&#xff0c;一直停留在內存中。GCRoot 無法追蹤到此對象&#xff0c;導致此對象無法被回收。 2、什么是內存溢出內存溢出是指&#xff0c;java程序創建對象需要內存&#xff0c;但是卻沒有內存可用了&#xff0…

ebnf范式_使用Scala基于詞法單元的解析器定制EBNF范式文法解析

前言近期在做Oracle遷移到Spark平臺的項目上遇到了一些平臺公式翻譯為SparkSQL(on Hive)的需求&#xff0c;而Spark采用親媽語言Scala進行開發。下面是個意外&#xff0c;被論文查重了,移步至我的Leanote博客查看點我&#xff0c;先亂碼一段時間[分后&#xff0c;擬使中的EB式&…

鉆石指標和完美的計算

鉆石的高度計算公式為&#xff1a;鉆石的高度直徑的三次方&#xff08;單位毫米&#xff09;0.00366(允許有0.03克拉的誤差)例如&#xff0c;0.5克拉的鉆石直徑是5.01毫米&#xff0c;則它的高為&#xff1a;5.01*5.01*5.01*0.003660.46說明0.5克拉的鉆石直徑只有0.46克拉鉆石的…

linux開機自動ZFS,linux – 為什么重新啟動導致我的ZFS鏡像的一面成為UNAVAIL?

我最近剛剛將批量數據存儲池(ZFS OnLinux 0.6.2,Debian Wheezy)從單設備vdev配置遷移到雙向鏡像vdev配置.之前的池配置是&#xff1a;NAME STATE READ WRITE CKSUMakita ONLINE 0 0 0ST4000NM0033-Z1Z1A0LQ ONLINE 0 0 0在重新啟動完成后一切都很好(我在重新啟動完成后啟動了一…

華為交換機默認vlan都是通的嗎_【思唯網絡學院】華為交換機常用的三種vlan劃分方法...

端口類型在學習劃分vlan前&#xff0c;必須要了解華為交換機的端口類型&#xff0c;以及他們的使用方法&#xff0c;因為端口的類型在實際配置中是必須會用到的&#xff0c;因為下面的vlan劃分會用到。1、Access類型端口執行命令port default vlan vlan-id&#xff0c;將端口加…

Spark應用日志級別設置

Spark-core包設置默認的日志級別為info&#xff0c;所以我們才看到一大堆日志信息。 開發的時候&#xff0c;把print的日志掩蓋了。 方法一&#xff1a; 代碼中設置日志級別 JavaSparkContext contextnew JavaSparkContext(conf); context.setLogLevel("warn"); 方…

linux 恢復操作系統,如何恢復Linux操作系統的GRUB引導程?

先使用一張修復盤進入grub&#xff0c;或者利用其他linux恢復盤等等進入linux系統&#xff0c;然后進入grub控制臺。總之就是想盡辦法進入一個控制臺就是了。然后準備引導進入硬盤上的Linux系統。如下&#xff1a;  grub> root (hd0,10)  grub> kernel /boot/vmlinuz…

Centos 7初始化腳本

今天跟大家分享一個我自己寫的Linux初始化腳本&#xff0c;自認為寫的不是很好。希望看到這篇文章的你&#xff0c;能暫時停留下你的腳步&#xff0c;給些修改意見&#xff0c;或者有什么需要補充的地方都可以提出來&#xff0c;大家共同進步&#xff0c;謝謝&#xff01;此腳本…

Hive-sql與SQL的區別

總體一致&#xff1a; Hive-sql與SQL基本上一樣&#xff0c;因為當初的設計目的&#xff0c;就是讓會SQL不會編程MapReduce的也能使用Hadoop進行處理數據。 因此&#xff0c;大膽使用SQL的&#xff0c;如果遇到不對的&#xff0c;再查。 區別&#xff1a; Hive沒有delete和u…

python閏年多一天_記一個 python datetime 閏年問題

python中datetime是比較常用的&#xff0c;平時用起來也沒什么問題&#xff0c;但是今天2020年2月29日服務器卻開始報錯了&#xff0c;這里有個平時難以注意的坑服務器上跑的是新浪網的爬蟲&#xff0c;抓取的頁面信息中帶有日期 XX月XX日&#xff0c;需要strfptime轉化一下&am…

linux find 按類型查找,Linux find查找find命令詳解

玩蛇網推薦圖文教程&#xff1a;python 列表Linux命令有很多&#xff0c;今天要介紹的是常用的基礎命令中的find命令。find是Linux系統管理員所喜愛用的必備工具命令之一&#xff0c;它的作用是可以很輕松地找到你想要的文件&#xff0c;一個命令就可以在眾多文件中找到你的目標…

window安裝gcc編譯器

在使用 GraphLab Create 時&#xff0c;導入包失敗&#xff0c;提示libs沒有的導入&#xff0c;而這些libs的編譯是需要gcc。 1、訪問&#xff1a;http://www.mingw.org/ 下載。 2、雙擊安裝 3、安裝好后會彈出下面的組件安裝界面 3、找到mingw32-gcc-g&#xff08;注意cl…

視頻AI,助力體育賽事轉播走進智能時代

摘要&#xff1a;2018俄羅斯世界杯經過近20天的激戰&#xff0c;已經進入到最關鍵的階段。本次賽事除了精彩紛呈的比賽之外&#xff0c;還加入很多高科技的元素&#xff0c;例如門線、VAR技術等等。讓本屆世界杯成為科技含量最高的一屆世界杯。2018俄羅斯世界杯經過近20天的激戰…

python求同構數_用c語言求1到1000的同構數_后端開發

python與平臺有關嗎_后端開發Python與平臺無關&#xff0c;因為Python是跨平臺的語言&#xff0c;Python作為腳本語言&#xff0c;是解釋執行的&#xff0c;所以能跨平臺&#xff0c;前提是必須要有一個對應的解釋器。具體請看實例&#xff1a;python中count函數的用法詳解_后端…

element表格實現樹形全選_很實用!word中全選的快捷鍵介紹及使用方法

全選快捷鍵可以提高我們在操作word時工作效率&#xff0c;在操作Word2003中怎么對文檔中的文字進行全選呢?下面為大家提供幾種全選的方法&#xff0c;絕對好用。Word怎樣全選?方法一、使用Word全選快捷鍵“CtrlA”進行全選(也適用于電子表格);方法二、展開菜單欄中的“編輯”…