大數據技術(一)

大數據技術概述

大數據技術層面及其功能

數據采集與預處理

  • 利用ETL(extract-transform-load)工具將分布的、異構數據源中的數據,如關系數據、平面數據文件等,抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎;
  • 利用日志采集工具把實時采集的數據作為流計算系統的輸入,進行實時處理分析;
  • 利用網頁爬蟲程序到互聯網網站中爬取數據。

數據存儲和管理

利用文件系統、關系數據庫、數據倉庫、并行數據庫,分布式文件系統、NoSQL數據庫、NewSQL數據庫等,實現對結構化、半結構化、非結構化數據的存儲和管理。

數據處理與分析

利用分布式并行編程模型和計算框架,結合機器學習和數據挖掘等算法,實現對海量數據的處理和分析。

數據可視化

對分析結果進行可視化呈現,幫助人們更好地理解數據、分析數據。

數據安全和隱私保護

在從大數據中挖掘潛在的巨大商業價值和學術價值的同時,構建隱私數據保護體系和數據安全體系,有效保護個人隱私和數據安全。

數據采集與預處理

數據采集

定義:數據采集,又稱數據獲取,是利用一種裝置,從系統外部采集數據并輸入到系統內部的一個接口。

過程:它通過各種技術手段把外部各種數據源產生的數據進行實時或非實時地采集,獲得各種類型的結構化、半結構化以及非結構化的海量數據并加以利用。

數據分類

?數據采集方式

大數據的采集通常采用多個數據庫來接收終端數據,包括智能硬件端、多種傳感器端、網頁端、移動APP應用端等,并且可以使用數據庫進行簡單的處理工作。

數據采集數據源

  • 數據源: 企業業務系統數據:企業產生的業務數據,以數據庫一行記錄的形式,被直接寫入到數據庫中。企業使用傳統的關系數據庫MySQL和Oracle,或Redis和MongoDB這樣的NoSQL數據庫來存儲業務系統數據。
  • 傳感器:是一種檢測裝置,能感受到被測量的信息,并轉化為其他形式的信息輸出,以滿足信息的傳輸、處理、存儲、顯示、記錄和控制等要求。
  • 日志文件:日志文件系統一般由數據源系統產生,用于記錄數據源的執行的各種操作活動。比如網絡監控的流量管理,金融應用的股票記賬和Web服務器記錄的用戶訪問行為。
  • 互聯網數據:互聯網數據采集是借助網絡爬蟲來實現的,通過對網頁數據的定向抓取。數據存儲與管理

數據采集要點

  • 全面性:數據量大具有分析價值;數據面全,支撐分析需求。比如對于“查看商品詳情”這一行為,需要采集用戶觸發時的環境信息、會話、以及背后的用戶id,最后需要統計這一行為在某一時段觸發的人數、次數、人均次數、活躍比等。
  • 多維性:靈活、快速自定義數據的多重屬性和不同類型,滿足不同的分析目標。比如“查看商品詳情”這一行為,通過埋點,我們才能知道用戶查看的商品是什么、價格、類型、商品id等多個屬性。從而知道用戶看過哪些商品、什么類型的商品被查看的多、某一個商品被查看了多少次。而不僅僅是知道用戶進入了商品詳情頁。
  • 高效性:高效性包含技術執行的高效性、團隊內部成員協同的高效性、數據分析需求和目標實現的高效性。還要考慮數據的及時性。

數據清洗

數據清洗是指將大量原始數據中的錯誤信息“洗掉”,它是發現并糾正數據文件中可識別的錯誤的最后一道程序,包括:一致性檢查、無效值和缺失值處理等。

需要清洗的數據的主要類型: 殘缺數據、錯誤數據、重復數據。

數據清洗的內容

  • 一致性檢查:根據每個變量的合理取值范圍和相互關系,檢查數據是否合乎要求,發現超出正常范圍、邏輯上不合理或者相互矛盾的數據。
  • 無效值和缺失值的處理:由于調查、編碼和錄入誤差,數據中可能存在一些無效值和缺失值,需要給予適當的處理。

無效值和缺失值的處理方法

  • 整例刪除:適合關鍵變量缺失,或者含有無效值或缺失值的樣本比重很小的情況。
  • 變量刪除:如果某一變量的無效值和缺失值很多,且對研究內容的不是很重要,該變量可以刪除。
  • 成對刪除:用一個特殊碼代表無效值和缺失值,同時保留數據集中的全部變量和樣本。
  • 估算: 統計法:對于數值型的數據(連續值),使用均值、加權均值、中位數等方法補足;對于分類型數據(離散值),使用類別眾數最多的值補足。
  • 模型法:基于已有的字段,將缺失字段作為目標變量進行預測,從而得到最為可能的補全值。如果帶有缺失值的列是數值變量(連續值),采用回歸模型補全;如果是分類變量(離散值),則采用分類模型補全。
  • 專家補全:對于少量且具有重要意義的數據記錄,專家補足也是非常重要的一種途徑。
  • 其他方法:例如隨機法、特殊值法、多重填補等。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/718058.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/718058.shtml
英文地址,請注明出處:http://en.pswp.cn/news/718058.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C語言什么是循環嵌套?

一、問題 分?結構是可以進?嵌套的,循環結構同樣也?持嵌套,那什么是循環嵌套呢? 二、解答 ?個循環體內?包含另?個完整的循環結構,就稱之為循環嵌套。內嵌的循環中還可以嵌套循環,這就是多層循環,也叫…

類與對象詳解 C++ (1)

1.struct和class 與C語言不同的是,C中struct和class可以定義成員變量和成員函數。更偏好用class。 2.類的定義 格式如下: class 為 定義類的 關鍵字, ClassName 為類的名字, {} 中為類的主體,注意 類定義結束時后面…

前端canvas項目實戰——簡歷制作網站(五):右側屬性欄(字體、字號、行間距)

目錄 前言一、效果展示二、實現步驟1. 優化代碼,提取常量2. 實現3個編輯模塊3. 實現updateFontProperty方法4. 一個常見的用法:僅更新當前選中文字的樣式 三、Show u the code后記 前言 上一篇博文中,我們擴充了線條對象(fabric.…

springboot 整合oauth2

1、EnableOAuth2Client:客戶端,提供OAuth2RestTemplate,用于客戶端訪問資源服務。 簡要步驟:客戶端訪問資源->客戶端發現沒有資源訪問token->客戶端根據授權類型生成跳轉url->瀏覽器 302 到認證授權服務進行認證、授權。…

Dockerfile構建過程詳解

Dockerfile介紹 docker是用來構建docker鏡像的文件!命令參數腳本! 構建步驟: 1、編寫一個dockerfile文件 2、docker build構建成為一個鏡像 3、docker run 運行鏡像 …

PDF轉Excel的未來:人工智能技術如何提升轉換效率和準確性

隨著信息技術的快速發展,PDF和Excel作為兩種重要的文件格式,在日常生活和工作中扮演著至關重要的角色。PDF以其獨特的跨平臺閱讀特性,成為了文件分享和傳輸的首選格式;而Excel則以其強大的數據處理能力,成為了數據分析…

【二分查找】【C++算法】378. 有序矩陣中第 K 小的元素

作者推薦 視頻算法專題 本文涉及的基礎知識點 二分查找算法合集 LeetCode378. 有序矩陣中第 K 小的元素 給你一個 n x n 矩陣 matrix ,其中每行和每列元素均按升序排序,找到矩陣中第 k 小的元素。 請注意,它是 排序后 的第 k 小元素&…

機器人持續學習基準LIBERO系列10——文件結構

0.前置 機器人持續學習基準LIBERO系列1——基本介紹與安裝測試機器人持續學習基準LIBERO系列2——路徑與基準基本信息機器人持續學習基準LIBERO系列3——相機畫面可視化及單步移動更新機器人持續學習基準LIBERO系列4——robosuite最基本demo機器人持續學習基準LIBERO系列5——…

力扣日記3.3-【回溯算法篇】332. 重新安排行程

力扣日記:【回溯算法篇】332. 重新安排行程 日期:2023.3.3 參考:代碼隨想錄、力扣 ps:因為是困難題,望而卻步了一星期。。。T^T 332. 重新安排行程 題目描述 難度:困難 給你一份航線列表 tickets &#xf…

牛客小白月賽86

A-水鹽平衡_牛客小白月賽86 (nowcoder.com) #include<bits/stdc.h> #define endl \n #define int long long using namespace std; int a,b,c,d; void solve() {cin>>a>>b>>c>>d;if((double)a/b>(double)c/d) cout<<S<<endl;els…

關于脈沖負載應用中電阻器,您需要了解的 11 件事?

不幸的是&#xff0c;電阻器在脈沖負載下可能會失效。當脈沖功率耗散到器件的電阻元件時&#xff0c;它會產生熱量并增加電阻器的溫度。過熱會損壞電阻元件&#xff0c;導致電阻變化甚至設備開路。為了避免在設計中出現這種情況&#xff0c;以下是您在選擇元件時應了解的有關電…

excel統計分析——拉丁方設計

參考資料&#xff1a;生物統計學 拉丁方設計也是隨機區組設計&#xff0c;是對隨機區組設計的一種改進。它在行的方向和列的方向都可以看成區組&#xff0c;因此能實現雙向誤差的控制。在一般的試驗設計中&#xff0c;拉丁方常被看作雙區組設計&#xff0c;用于提高發現處理效應…

Skipped breakpoint at because it happened inside debugger evaluation親測可用

問題描述&#xff1a; 在多線程項目中&#xff0c;在idea中打斷點時&#xff0c;有時會遇到下面這種情況&#xff1a; idea左下角出現一行紅底或者綠底文字提示&#xff1a; Skipped breakpoint at because it happened inside debugger evaluation 然后我們能感受到的就是…

HTML中自定義鼠標右鍵菜單

今天突然有人跟我提到了HTML中如何自定義鼠標右鍵菜單&#xff0c;這里大概記錄一下吧&#xff0c;方便下次直接復制。免得還去看API文檔。 文章目錄 HTML中自定義鼠標右鍵菜單結果如下所示可以稍微改一下鼠標懸浮到右鍵菜單時的樣式結果如下所示 只在某個特定的div才可以顯示…

javascript 的eval()和with是干嘛的

原來JavaScript 中的eval() 和 with 是兩個強大的功能&#xff0c;但同時它們也具有潛在風險的特性&#xff0c;所以謹慎使用。 首先說說eval() 函數&#xff1a; 它接收一個字符串參數&#xff0c;并將其作為 JavaScript 代碼來解析和執行。 這意味著你可以使用 eval() 動態地…

《Scratch等級認證CCF-GESP真題解析》專欄總目錄

?? 專欄名稱:《Scratch等級認證CCF-GESP真題解析》 ?? 專欄介紹:中國計算機學會GESP《CCF編程能力等級認證》Scratch圖形化編程(1~4級)歷屆真題解析。 ?? 訂閱專欄:訂閱后可閱讀專欄內所有真題解析,真題持續更新中,限時9.9元,歡迎訂閱! Scratch圖形化編程一級 序…

2368. 受限條件下可到達節點的數目

2368. 受限條件下可到達節點的數目 題目鏈接&#xff1a;2368. 受限條件下可到達節點的數目 代碼如下&#xff1a; //深度優先遍歷 //參考&#xff1a;https://leetcode.cn/problems/reachable-nodes-with-restrictions/solutions/2662538/shu-shang-dfspythonjavacgojsrust-…

C++自學精簡實踐教程

一、介紹 1.1 教程特點 一篇文章從入門到就業有圖有真相&#xff0c;有測試用例&#xff0c;有作業&#xff1b;提供框架代碼&#xff0c;作業只需要代碼填空規范開發習慣&#xff0c;培養設計能力 1.2 參考書 唯一參考書《C Primer 第5版》?參考書下載&#xff1a; 藍奏云…

Acwing---3777. 磚塊

磚塊 1.題目2.基本思想3.代碼實現 1.題目 n 個磚塊排成一排&#xff0c;從左到右編號依次為 1~n。 每個磚塊要么是黑色的&#xff0c;要么是白色的。 現在你可以進行以下操作若干次&#xff08;可以是 0 次&#xff09;&#xff1a; 選擇兩個相鄰的磚塊&#xff0c;反轉它…

STL——stack

目錄 stack stack都有哪些接口 模擬實現一個stack stack 1. stack是一種容器適配器&#xff0c;專門用在具有后進先出操作的上下文環境中&#xff0c;其刪除只能從容器的一端進行元素的插入與提取操作。 2. stack是作為容器適配器被實現的&#xff0c;容器適配器即…