一、什么是數據驅動?
數據驅動(Data-Driven)是在管理科學領域經常提到的名詞。數據驅動決策(Data-Driven Decision Making,簡稱DDD)是一種方法論,即在決策過程中主要依賴于數據分析和解釋,而不是依賴于直覺或個人經驗。它是相對于傳統的經驗驅動、直覺驅動或者偏見驅動的決策來講的。
Case1:數據驅動的案例
Netflix公司通過收集和分析用戶的觀看習慣,評分,搜索和其他行為數據,開發出高度個性化的推薦算法,以提高用戶體驗并增加用戶觀看時間。這種數據驅動的方法也被應用于決定哪些電影和電視節目應該被購買或制作。例如,它的原創劇集"紙牌屋"(House of Cards)就是基于大量用戶數據分析的結果決定制作的。
我們拿到數據,經過數據預處理,然后用來訓練模型,利用模型進行決策,這就是數據驅動的決策。可以說,目前的機器學習方法和深度學習方法大都是這個形式。但是早期的機器學習方法就是經驗驅動的偏多了。經驗驅動模型的設計和開發基于專家的經驗知識,目的是將特定領域的專家知識和推理過程編碼到計算機程序中。這些系統利用了人工智能中的知識表示和知識推理技術,特別是規則基礎的推理,來模仿人類專家的決策過程。如早期的專家系統:
Case2:經驗驅動的下象棋模型
比如我們想創建一個會下象棋的模型,這個模型就需要在博弈中決策每一步的棋子走法。經驗驅動的模型是這樣設計的,首先把每個棋子的規則寫進模型,如“馬走日,象飛田”等,然后找幾個下象棋的高手,然后把這些高手的下棋套路寫進模型,如對方“當頭炮”,那模型就要“把馬跳”,把高手的每一步應對策略當做規則寫進模型里。
?同樣的案例,數據驅動的決策模型就不依賴專家規則:
Case3:數據驅動的下象棋模型
我收集大量的博弈數據,構建象棋數據集,比如根據幾百年來的棋譜和高手博弈的數百萬場棋局中的每一步走法創建一個如下的數據集:
X y 兵1 兵2 ... 相 炮 (4,5) (4,5) (4,5) (-1,-1) 兵1 向右移動1格 (4,6) (4,5) (4,5) (-1,-1) 炮 ..... 不需要告訴模型“馬走日,象飛田”這些基本規則,只需要把數據輸入到模型(如邏輯回歸,當然這個模型很垃圾)中進行訓練,就可以得到一個會下象棋的決策模型。
二、什么是以數據為中心?
在上面的Case3中提到,我們得到數據后,使用邏輯回歸來擬合這個分類模型,由于邏輯回歸的算法很簡單,效果很差,所以大家就會琢磨更多更復雜更厲害的算法來擬合這些數據,比如深度學習算法,慢慢的,隨著技術的發展,模型能力越來越好。直到2017年,谷歌提出Attention?is?All?you?Need,從此來到了Transformer一統天下的地步,直到現在(2024.05),還沒有產生可以挑戰Transformer模型架構的新架構出現,尤其是大語言模型誕生后,Transformer架構的能力給予人們巨大的震撼。
由此可見,隨著技術的發展,算法的復雜性已經不再是限制模型能力的瓶頸。之前人們卷算法、卷模型的時代,可以稱作“Model-Centric”,人們的重點關注對象是模型。而現在,模型已經不是限制人工智能的主要方面,所以有人提出了“Data-Centric”以數據為中心的人工智能,Data-Centric的意思不是說不關注模型,而是說把模型和數據看的一樣重要,畢竟AI領域有句俗語“Garbage?in?garbage?out”——垃圾進,垃圾出。意思是垃圾的數據進去,無論模型多NB,出來的還是垃圾的模型,大不了是個過擬合的垃圾模型。
尤其是ChatGPT的訓練路徑,可以看出在數據集上的大量人力標注和篩選,保證高質量的數據。
數據降噪、數據去偏、數據增強、數據平衡、數據配比、數據課程這些方法都屬于Data-Centric的范疇,目前發展還處于初步階段。
參考文獻
什么是數據驅動?到底如何驅動?數據驅動的內涵、方法、案例、優勢和特征分析
專家系統簡要介紹 - 喬胤博的文章 - 知乎
https://zhuanlan.zhihu.com/p/381896056
目前以數據為中心(Data-centric)的人工智能發展如何? - 知乎
https://www.zhihu.com/question/521096166
Data-Centric AI思考和實踐 - 北冥有歌的文章 - 知乎
https://zhuanlan.zhihu.com/p/593692636
2023年后,AI 還有什么研究方向有前景? - 一堆廢紙的回答 - 知乎
https://www.zhihu.com/question/591140366/answer/2961915932