數據vs.算法,究竟誰更重要

摘要:數據和算法究竟哪個更重要并沒有一個明確的界定,根據不同的情境和應用,它們發揮的作用不同。雖然實際情況確實如此,但是在數據為王的時代,算法的關心似乎已只停留在某些領域或者某些公司里面。

【編者按】隨著服務器愈加的廉價,集群計算框架愈加成熟,大家似乎已經完全把眼光放到海量的數據上,算法的精心調校似乎已成為某些領域或者某些公司才去鉆研的事情。那么,數據為王的時代,算法真的已無用武之地?下面我們一起看看Rio和鄧毅的辨析。


免費訂閱“CSDN大數據”微信公眾號,實時了解最新的大數據進展!

CSDN大數據,專注大數據資訊、技術和經驗的分享和討論,提供Hadoop、Spark、Imapala、Storm、HBase、MongoDB、Solr、機器學習、智能算法等相關大數據觀點,大數據技術,大數據平臺,大數據實踐,大數據產業資訊等服務。


以下為原文:

谷歌的強不是強在 PageRank 算法,而在于它是第一個在排名時把鏈接——而不只是文字和標題——考慮進去的。又以自己教的數據挖掘課為例。他讓學生以 Netflix 用戶對一萬八千多部電影的打分為基礎數據,寫程序為她們推薦別的電影。其中有組學生的算法較優,另外一組學生算法一般,但使用了外部數據——IMDB 對電影類型的歸類。結果第二組的結果勝過了第一組。

那么到底是數據重要還是算法重要呢?

大數據

來自Rio的觀點:

————————————————————————————————————————————

雖然不能這么絕對的判斷一定誰比誰重要,但在實際應用中很多時候的確是數據更加重要。有幾方面的原因:

在很多問題中,算法的“好壞”在沒有大量有效數據的支撐下是沒有意義的。換句話說,很多算法得到的結果的質量完全取決于其和真實數據的擬合程度。如果沒有足夠的數據支撐、檢驗,設計算法幾乎等于閉門造車。

很多算法會有一堆可調參數。這些參數的選擇并沒有什么標準可依,無非是扔給大量數據,看參數的變化會帶來什么樣的結果的變化。大量、有效的數據成為優化這類算法的唯一可行方法。

更極端的例子是,算法本身很簡單,程序的完善全靠數據訓練。比如神經網絡。

對于很多成熟的算法,優化算法的增量改善通常遠小于增大輸入數據(這是個經濟性的考慮)。

比如問題中舉例的 Google。在它之前的搜索引擎已經把基于網頁內容的索引算法做得很好了,要想有更大的改善需要換思路。PageRank 算法的采用大大增加了輸入的數據量,而且鏈接數據本身對于網頁排名相當關鍵(當然他們也做了大量算法的優化)。【插話:在這樣的思想指導下,Google 想要插手社交網絡或微博也不足為奇了吧?實時搜索、排名沒有真人的互動怎么可能。】

Netflix 挑戰賽的例子中,Netflix 本身的推薦算法也是優化到極致了。再從算法本身去找改進之處,投入產出比太低。引文中的學生僅僅是加入了 IMDB 數據庫關于電影分類(從而更加明確觀眾的偏好)就能帶來比復雜算法更加顯著的改善,試想如果他們能拿到 Rotten Tomatoes 的數據會怎樣?

When people are equally smart, big data wins。這個結論的悲摧之處在于,在類似行業中,今后小的創業公司想要打敗巨頭就不那么容易。要么要改變思路,要么要改變策略。指望靠小聰明扳倒大象會很成問題。

當然這也不是絕對的。比如典型的反例(算法比數據重要)是 Google 剛被批準收購的 ITA Software。這家牛 B 烘烘(估計是現存最大的 Lisp shop)的公司的機票搜索引擎驅動著世界各大航空公司、票務中介的后臺系統。它的數據來自一個各大航空公司授權的公司,其他競爭者也可以花錢(雖然不便宜)買到同樣的數據。但它的牛 B 之處在于能從同樣的數據里比別人更快挖出更好的結果。

來自鄧毅的觀點:

———————————————————————————————————————————

程序 = 數據結構 + 算法,數據結構用來干啥的,裝數據的呀。

數據能干啥?數據是信息的源泉,沒有足夠的數據,就沒有信息,信息技術沒有信息啥都沒有。

算法能干啥?把數據中信息提取出來,不經過提取,數據還是數據,變不成有用的信息。

這倆不是并列的關系,而是一體的,如何能說誰重要呢?腦子重要還是心臟重要,你給我說說。

此外,數據的好壞如何衡量?不是越多越好,當然數據越多往往所蘊含的信息越大,這個容易看得出來;算法的好壞如何衡量?不是越復雜約好,能從海量的垃圾中找到有用的信息的算法就是好的算法,雖然不這么復雜,不是所有的人都能看到這點。

我最想說的是什么?如果不是事不關己的旁觀者,數據往往是自己能拿到最多的數據,然后根據自己的這些數據去找最合適的算法。

原文鏈接: 糾結,到底是數據重要還是算法重要呢?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/447396.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/447396.shtml
英文地址,請注明出處:http://en.pswp.cn/news/447396.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

JDK8 集合排序 xxxList.stream.sorted(...)

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 # 默認 list.stream().sorted() list.stream().sorted(Comparator.reverseOrder()) # 按字段排序 xxxList.stream().sorted(Comparato…

云數據中心選址PK:微軟第一,IBM第二,谷歌最少

摘要:多區域數據中心往往可以側面說明服務的可用性,在這個方面,Azure以12個區域領先,接著是Softlayer 9個,Amazon 8個,Rackspace 6個。Google比較落后,只有3個。 【編者按】當下,各…

解決:Unexpected token (START_OBJECT), expected START_ARRAY: need JSON Array to contain As.WRAPPER_ARRA

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 1. redisTemplate 報錯: Caused by: com.fasterxml.jackson.databind.JsonMappingException:Unexpected token (START_OBJEC…

用戶暴增下的收入降低,AWS面臨尷尬

摘要:雖然摩爾定律和規模經濟會帶來成本效益,但是在大量的競爭下,AWS的收益已明顯降低,而10%的股價下降更帶來了投資者的不滿。 【編者按】雖然亞馬遜的云業務遠遠超過了IBM、HP和Google等巨頭科技軟件公司,但是其增長…

解決:Caused by: redis.clients.jedis.exceptions.JedisDataException: WRONGTYPE Operation against a key

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 1. 報錯: Caused by: redis.clients.jedis.exceptions.JedisDataException: WRONGTYPE Operation against a key holding t…

為什么軟件測試需要變革?

摘要:世易時移,現今的科技發展一日千里,軟件測試這門科學也到了該進行革命的時候了。作者Bhumika Mehta認為軟件測試需要的就是想法與創意。沒有想法的測試人員可能在測試這條路上不會走得太遠。 世易時移,現今的科技發展一日千里…

websocke 在線測試地址

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 記錄一個websocke在線測試地址: http://www.websocket-test.com/

Linux統治超級計算領域的九個理由

Linux能統治超級計算領域的幾個原因不外乎:歷史悠久、成本低廉、可靠、安全、開源、資源豐富、易于管理、創新不斷等等。1. Linux在超級計算的歷史 NASA在1994年使用Linux建立了第一個Beowulf集群,作為昂貴的HPC超級計算機的一種替代品。“Beowulf集群是…

左手代碼,右手是你

認識你是在 5 年前:成都,地鐵2號線,白果林站,2014 年 2 月下旬 高高的,廋廋的,戴著一副瑩潤的眼鏡,穿著一件并不太合身的、略寬松的羽絨服,安靜的站在我們約定見面的地鐵口 是的&a…

開源是如何讓Android成為移動市場大佬的?

在如今的手機操作系統市場中,Android占有約80%的市場份額,是當之無愧的大佬。這其中離不開開源的貢獻:作為開源系統本身,Android就激起了世界各地開發者、開源愛好者和大眾用戶的興趣。大約是十年前,我有了自己的第一部…

10個常見的緩存使用誤區

摘要:在日常工作中,開發者經常利用緩存來進行優化站點或優化應用程序。但在實際應用中,在使用緩存時,總是那么不盡如意。這什么原因呢?本文,筆者收集了最為常見的十大緩存誤區以及使用建議。 在日常工作中…

十種程序語言幫你讀懂大數據的“秘密”

摘要:經過數年發展,當下大數據領域已充斥著各種各樣的分析工具,那么如何才能選擇自己適合的。本文從R、Scala、Java、Go、Python等10種語言著手,帶大家一覽大數據領域的常用工具。 【編者按】面對成千上萬條數據記錄,…

標準開源產品是打破供應商壟斷的關鍵

Mrten Mickos是美國桉樹系統公司的CEO,提出當公司拘泥于自己的設計和定制化時,與他們被供應商鎖定所受到的損害程度是相當的。Mickos解釋了為什么他認為采用標準開源產品是避免這兩種被鎖定類型的最好方式。當談到軟件和云服務時,業務鎖定是有…

專訪阿里云總裁王文彬:做出“用得爽”的工程產品

摘要:已擁有近百萬不同行業領域用戶的阿里云,在產品開發、服務輸出與生態系統建設等方面還將繼續加速,多點開花。 回顧在2014年已經過去的半年中,阿里云在產品開發、服務輸出與生態系統建設層面的諸多動作。不難看出,…

寫代碼前的準備,你做好了嗎?

我們程序員很容易給別人一種深刻的誤解:寫代碼的。包括我們自己有時候也會陷入這樣的圈套之中。很多程序員在接到任務之后,就會馬上想著如何用代碼來實現,這是一種很不好的做法。其實,在我們寫代碼之前,還有很多工作要…

周鴻祎:比情懷更重要的硬件創業三定律

7月31日,首屆福布斯中國創新峰會于東莞松山湖高新區召開,峰會集結了中國互聯網與制造業前沿的商業創新領袖,集中探討互聯網時代如何重鑄產業未來。 奇虎360董事長周鴻祎首先就互聯網創新闡述了自己對硬件和制造業未來的看法。他認為互聯網催…

C++11(及現代C++風格)和快速迭代式開發

過去的一年我在微軟亞洲研究院做輸入法,我們的產品叫“英庫拼音輸入法” (下載Beta版),如果你用過“英庫詞典”(現已更名為必應詞典),應該知道“英庫”這個名字(實際上我們的核心開發…

軟件系統分析師與架構師技能大PK(您具備了哪些呢?)

軟件系統分析師與架構師在職責與技能方面沒有明顯的界線,你中有我我中有你,同時也有各自自己的世界,很值得拿來比比。 系統分析師職責:告訴我們系統應該做什么。 l 管理到技術的橋梁 各領域業務到信息化技術的通知翻譯者。 l 對軟件項目進行整…

桌面系統和程序員

本周我出席了OpenStack峰會。在峰會上絕大多數應用部署都是基于Linux的,然而,大家使用的筆記本電腦最多的還是蘋果產的。人們寫代碼,最終要把代碼部署到Linux上,但在編碼時卻使用另外一種不同的操作系統。 最有趣的還是他們使用的…

原型設計工具的對比評測記錄(一)

概述:本文是美國的專業設計公司cooper公司的交互設計師Emily Schwartzman所寫的一篇對眾多原型設計工具的對比評測。這里是前半部分,從總體角度介紹評測及其結果。原型設計工具的對比評測記錄(一)原型設計工具的對比評測記錄&…