數據驅動(Data-Driven)和以數據為中心(Data-Centric)的區別

一、什么是數據驅動?

數據驅動(Data-Driven)是在管理科學領域經常提到的名詞。數據驅動決策(Data-Driven Decision Making,簡稱DDD)是一種方法論,即在決策過程中主要依賴于數據分析和解釋,而不是依賴于直覺或個人經驗。它是相對于傳統的經驗驅動、直覺驅動或者偏見驅動的決策來講的。

Case1:數據驅動的案例

Netflix公司通過收集和分析用戶的觀看習慣,評分,搜索和其他行為數據,開發出高度個性化的推薦算法,以提高用戶體驗并增加用戶觀看時間。這種數據驅動的方法也被應用于決定哪些電影和電視節目應該被購買或制作。例如,它的原創劇集"紙牌屋"(House of Cards)就是基于大量用戶數據分析的結果決定制作的。

我們拿到數據,經過數據預處理,然后用來訓練模型,利用模型進行決策,這就是數據驅動的決策。可以說,目前的機器學習方法和深度學習方法大都是這個形式。但是早期的機器學習方法就是經驗驅動的偏多了。經驗驅動模型的設計和開發基于專家的經驗知識,目的是將特定領域的專家知識和推理過程編碼到計算機程序中。這些系統利用了人工智能中的知識表示和知識推理技術,特別是規則基礎的推理,來模仿人類專家的決策過程。如早期的專家系統:

Case2:經驗驅動的下象棋模型

比如我們想創建一個會下象棋的模型,這個模型就需要在博弈中決策每一步的棋子走法。經驗驅動的模型是這樣設計的,首先把每個棋子的規則寫進模型,如“馬走日,象飛田”等,然后找幾個下象棋的高手,然后把這些高手的下棋套路寫進模型,如對方“當頭炮”,那模型就要“把馬跳”,把高手的每一步應對策略當做規則寫進模型里。

?同樣的案例,數據驅動的決策模型就不依賴專家規則:

Case3:數據驅動的下象棋模型

我收集大量的博弈數據,構建象棋數據集,比如根據幾百年來的棋譜和高手博弈的數百萬場棋局中的每一步走法創建一個如下的數據集:

Xy
兵1兵2...
(4,5)(4,5)(4,5)(-1,-1)兵1向右移動1格
(4,6)(4,5)(4,5)(-1,-1).....

不需要告訴模型“馬走日,象飛田”這些基本規則,只需要把數據輸入到模型(如邏輯回歸,當然這個模型很垃圾)中進行訓練,就可以得到一個會下象棋的決策模型。

二、什么是以數據為中心?

在上面的Case3中提到,我們得到數據后,使用邏輯回歸來擬合這個分類模型,由于邏輯回歸的算法很簡單,效果很差,所以大家就會琢磨更多更復雜更厲害的算法來擬合這些數據,比如深度學習算法,慢慢的,隨著技術的發展,模型能力越來越好。直到2017年,谷歌提出Attention?is?All?you?Need,從此來到了Transformer一統天下的地步,直到現在(2024.05),還沒有產生可以挑戰Transformer模型架構的新架構出現,尤其是大語言模型誕生后,Transformer架構的能力給予人們巨大的震撼。

由此可見,隨著技術的發展,算法的復雜性已經不再是限制模型能力的瓶頸。之前人們卷算法、卷模型的時代,可以稱作“Model-Centric”,人們的重點關注對象是模型。而現在,模型已經不是限制人工智能的主要方面,所以有人提出了“Data-Centric”以數據為中心的人工智能,Data-Centric的意思不是說不關注模型,而是說把模型和數據看的一樣重要,畢竟AI領域有句俗語“Garbage?in?garbage?out”——垃圾進,垃圾出。意思是垃圾的數據進去,無論模型多NB,出來的還是垃圾的模型,大不了是個過擬合的垃圾模型。

尤其是ChatGPT的訓練路徑,可以看出在數據集上的大量人力標注和篩選,保證高質量的數據。

數據降噪、數據去偏、數據增強、數據平衡、數據配比、數據課程這些方法都屬于Data-Centric的范疇,目前發展還處于初步階段。


參考文獻

什么是數據驅動?到底如何驅動?數據驅動的內涵、方法、案例、優勢和特征分析

專家系統簡要介紹 - 喬胤博的文章 - 知乎
https://zhuanlan.zhihu.com/p/381896056

目前以數據為中心(Data-centric)的人工智能發展如何? - 知乎
https://www.zhihu.com/question/521096166

Data-Centric AI思考和實踐 - 北冥有歌的文章 - 知乎
https://zhuanlan.zhihu.com/p/593692636

2023年后,AI 還有什么研究方向有前景? - 一堆廢紙的回答 - 知乎
https://www.zhihu.com/question/591140366/answer/2961915932

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/15740.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/15740.shtml
英文地址,請注明出處:http://en.pswp.cn/web/15740.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java基礎學習:java中的基礎注解

在Java中,有一些內置的(或稱為“基礎”)注解(annotation),這些注解在Java標準庫中定義,并且具有特定的用途。以下是一些主要的Java內置注解: Override: 用于表示一個方法…

Keras深度學習框架第二十七講:KerasTuner超參數優化基礎

1、超參數優化概念 1.1 什么是超參數優化 超參數調優,也稱為超參數優化或參數調優,是尋找學習算法或模型最佳超參數組合的過程。超參數是在訓練過程開始之前設置的參數,模型無法直接從數據中學習這些參數。它們控制著學習算法的行為&#x…

NDIS小端口驅動開發(二)

初始化微型端口適配器 當網絡設備可用時,系統會加載所需的 NDIS 微型端口驅動程序。 隨后,即插即用 (PnP) 管理器向 NDIS 發送即插即用 IRP 來啟動設備。 NDIS 調用微型端口驅動程序的 MiniportInitializeEx 函數來初始化用于網絡 I/O 操作的適配器。 初…

嵩山為什么稱為三水之源

三水指黃河、淮河、濟河,這三條河流環繞在嵩山周邊。 黃河橫亙在嵩山北部,其支流伊洛河從西南方環繞嵩山,然后匯入黃河。濟河,古稱濟水,源自濟源王屋山,自身河道在東晉時代被黃河奪占,從此消失。…

畢設 大數據校園卡數據分析

文章目錄 0 前言1 課題介紹2 數據預處理2.1 數據清洗2.2 數據規約 3 模型建立和分析3.1 不同專業、性別的學生與消費能力的關系3.2 消費時間的特征分析 4 Web系統效果展示5 最后 0 前言 🔥 這兩年開始畢業設計和畢業答辯的要求和難度不斷提升,傳統的畢設…

職場不是掙錢

職場怎么不是掙錢? 曾經我也一直這么想,只要做好老板安排的事情,自然就可以掙到錢了。 目的應該是沒錯的,是掙錢。 只是做好活就能掙錢,好像想得有些簡單了。 畢竟每個人都在干活,為什么就該自己掙錢呢&a…

【vue2配置】Vue Router

Vue Router官網 1、npm install vue-router4 2、創建模塊,在src目錄小創/views/map/MapIndex.vue模塊和創router/index.js文件 3、在router/index.js配置路由 import Vue from "vue"; import Router from "vue-router"; // 引入模塊 const Ma…

C語言——在頭?件中#if、_STDC_等字?起什么作??

一、問題 通常,?些程序員都不會去研究頭?件中的內容是什么含義,總覺得亂亂的,有很多 #if、_STDC_、#line 等字符,那么這些字符都各代表什么呢,在頭?件中又起到什么作?呢? 二、解答 在頭?件中存在類似…

智慧校園建設的進階之路

智慧校園的建設現已到達了老練的階段,許多學校設備充滿著數字化信息,進出宿舍樓,校園一卡通體系會記載下學生信息,外來人員闖入會報警,翻開電腦就能查到學生是否在宿舍等……學生的學習和日子都充滿了數字化的痕跡。但…

C# WPF入門學習(三)

目錄 核心架構 核心組件和概念 1. XAML(eXtensible Application Markup Language) 2. 依賴屬性(Dependency Properties) 3. 路由事件(Routed Events) 4. 數據綁定 5. 命令(Commands&…

itertools內置模塊的過濾妙用

itertools內置模塊的妙用 過濾源迭代器中的元素 Python內置itertools模塊里有一些函數可以過濾源迭代器中的元素。 islice islice可以在不拷貝數據的前提下,按照下標切割源迭代器。可以只給出切割的終點,也可以同時給出起點和終點,還可以…

MongoDB 覆蓋索引查詢:提升性能的完整指南

MongoDB 覆蓋索引查詢是一種優化數據庫查詢性能的技術,它通過創建適當的索引,使查詢可以直接從索引中獲取所需的數據,而無需訪問實際的文檔數據。這種方式可以減少磁盤 I/O 和內存消耗,提高查詢性能。 基本語法 在 MongoDB 中&a…

SQL練習題:2.4

建表 # 學生表 create table t_student (stu_id varchar(10),stu_name varchar(10),stu_age datetime,stu_sex varchar(10) );# 課程表 create table t_t_course (c_id varchar(10),c_name varchar(10),c_teaid varchar(10) );# 教師表 create table t_t_teacher (tea…

光速入門python的OpenCV

前言 歡迎來到我的博客 個人主頁:北嶺敲鍵盤的荒漠貓-CSDN博客 本文整理python的OpenCV模塊的關鍵知識點 爭取用最短的時間入門OpenCV 并且做到筆記功能直接復制使用 OpenCV簡介 不浪費時間的介紹: 就是類似于ps操作圖片。 至于為什么不直接用ps,因為只有程序能…

【找出滿足差值條件的下標 I】python

目錄 暴力題解 優化:滑動窗口維護大小值 暴力題解 class Solution:def findIndices(self, nums: List[int], indexDifference: int, valueDifference: int) -> List[int]:nlen(nums)for i in range(n):for j in range(n-1,-1,-1):if abs(i-j)>indexDiffere…

海康威視NVR通過ehome協議接入視頻監控平臺,視頻瀏覽顯示3011超時錯誤的問題解決,即:The request timeout! 【3011】

目錄 一、問題描述 二、問題分析 2.1 初步分析 2.2 查看日志 2.3 問題驗證 1、查看防火墻 2、查看安全組 3、問題原因 三、問題解決 3.1 防火墻開放相關端口 3.2 安全組增加規則 3.3 測試 1、TCP端口能夠聯通的情況 2、TCP端口不能夠聯通的情況 四、驗證 五、云…

「51媒體」如何與媒體建立良好關系?

傳媒如春雨,潤物細無聲,大家好,我是51媒體網胡老師。 與媒體建立良好關系對于企業或個人來說都是一項重要的公關活動。 了解媒體:研究媒體和記者的興趣,提供相關且有價值的信息。 建立聯系:通過專業的方式…

牛客NC324 下一個更大的數(三)【中等 雙指針 Java/Go/PHP/C++】參考lintcode 52 · 下一個排列

題目 題目鏈接: https://www.nowcoder.com/practice/475da0d4e37a481bacf9a09b5a059199 思路 第一步:獲取數字上每一個數,組成數組arr 第二步:利用“下一個排列” 問題解題方法來繼續作答,步驟:利用lintc…

C++進階之路:何為拷貝構造函數,深入理解淺拷貝與深拷貝(類與對象_中篇)

?? 歡迎大家來訪Srlua的博文(づ ̄3 ̄)づ╭?~?? 🌟🌟 歡迎各位親愛的讀者,感謝你們抽出寶貴的時間來閱讀我的文章。 我是Srlua小謝,在這里我會分享我的知識和經驗。&am…

PostgreSQL基礎(三):PostgreSQL的基礎操作

文章目錄 PostgreSQL的基礎操作 一、用戶操作 二、權限操作 三、操作任務