【2023年11月第四版教材】《第5章-信息系統工程之數據工程(第三部分)》

《第5章-信息系統工程之數據工程(第三部分)》

  • 2 數據工程
    • 2.1 數據建模
    • 2.2 數據標準化
    • 2.3 數據運維
    • 2.4 數據開發利用
    • 2.5 數據庫安全

2 數據工程

2.1 數據建模

1、根據模型應用目的不同,可以將數據模型劃分為三類:概念模型邏輯模型物理模型

模型解釋說明
概念模型也稱信息模型,它是按用戶的觀點來對數據和信息建模,也就是說,把現實世界中的客觀對象抽象為某一種信息結構,這種信息結構不依賴于具體的計算機系統,也不對應某個具體的DBMS.它是概念級別的模型
邏輯模型1.目前主要的數據結構有層次模型、網狀模型、關系模型、面向對象模型和對象關系模型。其中,關系模型成為目前好要的一種邏輯數據模型。
2.關系數據模型的數據操作主要包括查詢、插入、刪除更新數據,這些操作必須滿足關系的完整性約束條件。
3.關系的完整性約束包括三大類型:實體完整性、參照完整性用戶定義的完整性
物理模型物理數據模型是在邏輯數據模型的基礎上,考慮各種具體的技術實現因素進行數據庫體系結構設,真正實現數據在數據庫中的存放。物理數據模型的內容包括確定所有的表和列,定義外鍵用于確定表之間的關系,基于性能的需求可能進行反規范化處理等內容。物理模型的基本元素包括表、字段、視圖、索引、存儲過程、觸發器等,其中表、 字段和視圖等元素與邏輯模型中基本元素有一定的對應關系

2、數據建 模過程包括數據需求分析、概念模型設計、邏輯模型設計物理模型設計等過程。

數據建模過程具體內容
數據需求分析用戶需求一數據流圖
概念模型設計將需求分析得到結果抽象為概念模型的過程就是概念模型設計,其任務是確定實體和數據及其關聯,建名邏輯模型,關系模式
邏輯模型設計建立概念模型,其任務是確定實體和數據及其關聯即E-R圖
物理模型設計將數據模型轉換為真正的數據庫結構,還需要針對具體的DBMS進行物理模型設計,使數據模型走向數據存儲應用環節,主要問題包括命名、確定字段類型和編寫必要的存儲過程與觸發器

2.2 數據標準化

1、數據標準化是實現數據共享的基礎。使得數據簡單化、結構化和標準化。

2、數據標準化的主要內容包括元數據標準化、數據元標準化、數據模式標準化、數據分類與編碼標準化數據標準化管理

過程解釋說明
元數據標準化元數據是關于數據的數據。元數據被定義為提供關于信息資源或數據的一種結構化數據,是對信息資源的結構化描述。其實質是用于描述信息資源或數據的內容、 覆蓋范圍、質量、管理方式、數據的所有者、數據的提供方式等有關的信息。
數據元標準化開放系統互連環境(OSIE)四個基本要素(硬件、軟件、通信和數據)中的三個要素(硬件、軟件和通信
1.數據元:是數據庫、文件和數據交換的基本數據單元。數據庫或文件由記錄或元組等組成,而記錄或元組則由數據元組成.由對象、特性和表示組成。
2.數據元提取:方法有兩種:自上而下(Top-Down)和自下而上(Down-Top)提取法。對于新建系統的數據元提取,一般適用“自上而下”的提取法。
3.數據元標準
數據模式標準化1.本質:規范化處理,減少冗余2.數據模式的描述方式主要有圖描述方法數據字典方法。圖描述方法常用的有IDEFIX方法UML圖,主要用來描述數據集中的實體和實體之間的相互關系;數據字典形式用來描述模型中的數據集、單個實體、屬性的摘要信息。
數據分類和編碼標準化就是把數據分類與編碼工作納入標準化工作的領域,按標準化的要求和工作程序, 將各種數據按照科學的原則進行分類以編碼,經有關方面協商一致,由主管機構批準、注冊,以標準的形式發Q作為共同遵守的準則和依據,并在其相應的級別范圍內宣貫和推行。
數據標準化管理包括確定數據需求、制定數據標準、批準數據標準實施數據標準四個階段
1.確定數據需求:將產生數據需求及相關的元數據、域值等文件。
2.制定數據標準:要處理“確定數據需求”階段提出的數據需求。如果現有的數據標準不能滿足該數據需求,可以建議制定新的數據標準,也可建議修改或者封存已有數據標準。
3.批準數據標準:數據管理機構對提交的數據標準建議、現行數據標準的修改或封存建加行審查一經批準,該數據標準將擴充或修改數據模型。
4.實施數據標準:涉及在各信息系統中實施和改進已批準的數據標準。

2.3 數據運維

過程解釋說明
數據存儲就是根據不同的應用環境,通過采取合理、安全、有效的方式將數據保存到物理介質上,并能保證對數據實施有效的訪問
數據備份1.數據備份是為了防止由于用戶操作失誤、系統故障等意外原因導致的數據丟失, 而將整個應用系統的數據或一部分關鍵數據復制到其他存儲介質上的過程。
2.數據備份結構可以分為四:DAS備份結構、基于LAN的備份結構、LANFREE備份結構SERVER-FREE備份結構
3.常見的備份策略主要有三種:完全備份、差分備份增量備份
數據容災1.根據容災系統保護對象的不同,容災系統分為應用容災數據容災兩類。
👉應用容災用于克服災難對系統的影響,保證應用服務的完整、可靠和安全等一系列要求,使得用戶在任何情況下都能得到正常的服務;
👉 數據容災關注于保證用戶數據的高可用性,在災難發生時能夠保證應用系統中數據盡量少丟失或不丟失,使得應用系統能不間斷地運行或盡快地恢復正常運行。
2.衡量容災系統有兩個主要指標:RPORTO,其中RPO代表了當災難發生時允許丟失的數據量;而RTO則代表了系統恢復的時間
數據質量與評價控制1.數據質量描述:數據質量可以通過數據質量元素來描述,數據質量元素分為數據質量定量元素數據質量非定量元素
2.數據質量評價過程
3.數據質量評價方法:直接評價法間接評價法
👉 直接評價法:通過將數據與內部或外部的參照信息,如理論值等進行對比。確定數據質量。
👉 間接評價法利用數據相關信息,如數據只對數據源、采集方法等的描述推斷或評估數據質量。
4.數據質量控制:分成前期控制后期控制兩個大部分。
👉前期控制包括數據錄入前的質量控制、數據錄入過程中的實時質量控制;
👉 后期控制為數據錄入完成后的后處理質量控制與評價。
依據建庫流程可分為:前期控制、過程控制、系統檢測、精度評價
5,數據清理:三個步驟:數據分析一數據檢測一數據修正
👉 數據分析:是指從數據中發現控制數據的一般規則,比如字段域、業務規則等, 通過對數據的分析,定義出數據清理的規則,并選擇合適的清理算法。
👉 數據檢測:是指根據預定義的清理規則及相關數據清理算法,檢測數據是否正確,比如是否滿足字段域業務規則等,或檢測記錄是否重復。
👉 數據修正:是指手工或自動地修正檢測到的錯誤數據或重復的記錄

2.4 數據開發利用

1、數據開發利用包括數據集成、數據挖掘和數據服務(目錄服務、查詢服務、瀏覽和下 載服務、數據分發服務)、數據可視化、信息檢索等。

過程解釋說明
數據集成1.將駐留在不同數據源中的數據進行整合,向用戶提供統一的數據視圖,使得用戶能以透明的方式訪問數據2.數據集成的目標就是充分利用已有數據,在盡量保持其自治性的前提下,維護數據源整體上的一致性,提高數據共享利用效率。實現數據集成的系統稱為數據集成系統,它為用戶提供了統一的數據源訪問接口,用于執行用戶對數據源的訪問請求。
數據挖掘1.從大量數據中提取或“挖掘”知識,即從大量的、不完全的、有噪聲的、模糊的、 隨機的實際數據中,提取隱含在其中的、人們不知道的、卻是潛在有用的知識。
2.數據挖掘主要任務:數據總結、關聯分析、分類和預測、聚類分析和孤立點分析
3.數據挖掘流程:確定分析對象、數據準備、數據挖掘、結果評估與結果應用五階段
數據服務數據服務主要包括數據且受服務、數據查詢與瀏覽及下載服務、數據分發服務。

1 .數據目錄服務:建立目錄方便檢索服務。
2.數據查詢與瀏覽及下載服務:是網上數據共享服務的重要方式,用戶使用數據的方式有查詢數據和下載數據兩種。
3.數據分發服務:是指數據的生產者通過各種方式將數據傳送到用戶的過程。
數據可視化1.指將抽象的事物或過程變成圖形圖像的表示方法
2.可視化的表現方式分為七類:一維數據可視化、二維數據可視化、三維數據可視化、 多維數據可視化、時態數據可視化、層次數據可視化和網絡數據可視化。
信息檢索1.信息檢索的方法:全文檢索、字段檢索、基于內容的多媒體檢索、數據挖掘
2.信息檢索的常用技術包括布爾邏輯檢索技術、截詞檢索技術、臨近檢索技術、限定字段檢索技術、限制檢索技術等。

2.5 數據庫安全

1、數據庫安全對策

安全對策要點
防止非法的數據訪問數據庫管理系統必須根據用戶或應用的授權來檢查訪問請求,以保證僅允許授權的用戶訪問數據庫
防止推導指的是用戶通過授權訪問的數據,經過推導得出機密信息,而按照安全策略, 該用戶是無權訪問此機密信息的
保證數據庫的完整性是保護數據庫不受非授權修改,以及不會因為病毒、系統中的錯誤等導致的存儲數據破壞。這種保護通過訪問控制、備份/恢復以及一些專用的安全機制共同實現
保證數據的操作完整性定位于在并發事務中保證數據庫中數據的邏輯一致性。由并發管理器子系統負責
保證數據的語義完整性在修改數據時,保證新值在一定范圍內符合邏輯上的完整性。對數據值的約束通過完整性約束來描述。
審計和日志審計和日志是有效的威懾和事后追查、分析工具
標識和認證標識和認證是授權、審計等的前提條件是第一道安全防線
機密數據管理對于同時保存機密和公開數據的數據庫而言,訪問控制主要保證機密數據的保密性,僅允許授權用戶的訪問。這些用戶被賦予對機密數據進行一系列操作的權限,并且禁止傳播這些權限。
多級保護將數據劃分不同保密級別,戶只能訪問擁有的權限所對應級別的數據
限界限界的意義在于防止程序之間出現非授權的信息傳遞

2、數據庫安全機制包括用戶的身份認證、存取控制、數據庫加密、數據審計、推理控制等內容。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/41409.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/41409.shtml
英文地址,請注明出處:http://en.pswp.cn/news/41409.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【數據結構】棧與隊列

1 棧 1.1 棧的概念及結構 棧:一種特殊的線性表,其只允許在固定的一端進行插入和刪除元素操作。進行數據插入和刪除操作的一端稱為棧頂,另一端稱為棧底。棧中的數據元素遵守后進先出 LIFO (Last In First Out) 的原則。 壓棧:棧…

力扣75——圖廣度優先搜索

總結leetcode75中的圖廣度優先搜索算法題解題思路。 上一篇:力扣75——圖深度優先搜索 力扣75——圖廣度優先搜索 1 迷宮中離入口最近的出口2 腐爛的橘子1-2 解題總結 1 迷宮中離入口最近的出口 題目: 給你一個 m x n 的迷宮矩陣 maze (下標…

Kafka中的 ISR 機制

ISR 是什么 ISR 的全稱叫做: In-Sync Replicas (同步副本集), 可以理解為和 leader 保持同步的所有副本的集合。ISR 動態維護了一個和 leader 副本保持同步副本集合,ISR 中的副本全部都和 leader 的數據保持同步。 設一個場景&a…

JupyterHub實戰應用

一、JupyerHub jupyter notebook 是一個非常有用的工具,我們可以在瀏覽器中任意編輯調試我們的python代碼,并且支持markdown 語法,可以說是科研利器。但是這種情況適合個人使用,也就是jupyter notebook以我們自己的主機作為服務器…

PostgreSQL邏輯備份pg_dump使用及其原理解析

一、原理分析 1、循環調用getopt_long解析命令行參數,將參數保存到static DumpOptions dopt;中 2、判斷參數是否相容,不相容則退出: options -s/--schema-only and -a/--data-only cannot be used togetheroptions -c/--clean and -a/--data…

uni-app中監聽網絡狀態,并在嵌入webView頁面的組件中添加網絡監測

uni-app中監聽網絡狀態,并在嵌入webView頁面的組件中添加網絡監測 uni-app中監聽網絡狀態 下載插件 打開網絡異常組件頁面,點擊"下載插件并導入HBuilderX"按鈕,打開HBuilderX軟件后,選擇需要導入插件的項目&#xff…

機器學習與模型識別1:SVM(支持向量機)

一、簡介 SVM是一種二類分類模型,在特征空間中尋找間隔最大的分離超平面,使得數據得到高效的二分類。 二、SVM損失函數 SVM 的三種損失函數衡量模型的性能。 1. 0-1 損失: 當正例樣本落在 y0 下方則損失為 0,否則損失為…

系統架構設計師-信息安全技術(1)

目錄 一、信息安全基礎 1、信息安全五要素 2、網絡安全漏洞 3、網絡安全威脅 4、安全措施的目標 二、信息加解密技術 1、對稱加密 2、非對稱加密 3、加密算法對比 三、密鑰管理技術 1、數字證書 2、PKI公鑰體系 四、訪問控制技術 1、訪問控制基本模型 2、訪問控制的實現技術…

【Linux命令詳解 | ssh命令】 ssh命令用于遠程登錄到其他計算機,實現安全的遠程管理

文章標題 簡介一,參數列表二,使用介紹1. 連接遠程服務器2. 使用SSH密鑰登錄2.1 生成密鑰對2.2 將公鑰復制到遠程服務器 3. 端口轉發3.1 本地端口轉發3.2 遠程端口轉發 4. X11轉發5. 文件傳輸與遠程命令執行5.1 文件傳輸5.1.1 從本地向遠程傳輸文件5.1.2 …

TensorFlow 的基本概念和使用場景

簡介 TensorFlow 是一個開源的人工智能框架,由 Google 公司開發,用于構建和訓練機器學習模型。 TensorFlow 的基本概念包括: 1. 張量 (Tensor): TensorFlow 中的基本數據結構,可以理解為多維數組。 2. 計算圖 (Graph): TensorF…

深度學習入門-3-計算機視覺-圖像分類

1.概述 圖像分類是根據圖像的語義信息對不同類別圖像進行區分,是計算機視覺的核心,是物體檢測、圖像分割、物體跟蹤、行為分析、人臉識別等其他高層次視覺任務的基礎。圖像分類在許多領域都有著廣泛的應用,如:安防領域的人臉識別…

軟考筆記——9.軟件工程

軟件工程的基本原理:用分階段的生命周期計劃嚴格管理、堅持進行階段評審、實現嚴格的產品控制、采用現代程序設計技術、結果應能清除的審查、開發小組的人員應少而精、承認不斷改進軟件工程事件的必要性。 軟件工程的基本要素:方法、工具、過程 軟件生…

babylonjs基于自定義網格生成圍欄動畫

效果: import { Vector3, Mesh, MeshBuilder, StandardMaterial, Texture, Animation, Color3 } from "babylonjs/core"; import imgUrl from "./image/headerwangge2.png" // 創建模型護欄特效 export default class CreateRail {constructor…

cocos creator 設置精靈鏡像翻轉效果

在 Cocos Creator 中,你可以通過代碼來設置精靈節點的鏡像翻轉效果。具體來說,你可以使用精靈節點的 setScale 方法來實現這一點。以下是在代碼中設置水平鏡像翻轉和垂直鏡像翻轉的示例: // 獲取精靈節點的引用 let spriteNode cc.find(&qu…

小程序swiper一個輪播顯示一個半內容且實現無縫滾動

效果圖&#xff1a; wxml&#xff08;無縫滾動&#xff1a;circular"true"&#xff09;&#xff1a; <!--components/tool_version/tool_version.wxml--> <view class"tool-version"><swiper class"tool-version-swiper" circul…

數模論文寫作細節要求

目錄 優秀論文必要條件 數學建模的基本思路 第一步&#xff1a;了解問題——查文獻、找數據 第二步&#xff1a;闡述要解決什么問題、用什么方法 其余步驟&#xff1a;給出數學模型、計算求解、對比結果與真實情況、應用于現實問題。 使用某種數學方法的理由和依據 創…

Python爬蟲性能優化:多進程協程提速實踐指南

各位大佬們我又回來了&#xff0c;今天我們來聊聊如何通過多進程和協程來優化Python爬蟲的性能&#xff0c;讓我們的爬蟲程序6到飛起&#xff01;我將會提供一些實用的解決方案&#xff0c;讓你的爬蟲速度提升到新的高度&#xff01; 1、多進程提速 首先&#xff0c;讓我們來看…

cs231n assignment2 q5 PyTorch on CIFAR-10

文章目錄 嫌啰嗦直接看源碼Q5 :PyTorch on CIFAR-10three_layer_convnet題面解析代碼輸出 Training a ConvNet題面解析代碼輸出 ThreeLayerConvNet題面解析代碼輸出 Train a Three-Layer ConvNet題面解析代碼輸出 Sequential API: Three-Layer ConvNet題面解析代碼輸出 CIFAR-1…

SpringBoot整合ArtemisMQ筆記

SpringBoot整合ArtemisMQ筆記 本案例是springboot2.4.2整合Apache ArtemisMQ, 發送jms信息和訂閱jms消息的代碼示例pom配置 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-artemis</artifactId><…

BT利器之wazuh

目錄 一、什么是wazuh 二、wazuh的安裝 1.倉庫安裝 2.虛擬機OVA安裝 3.其他安裝方式 三、淺析wazuh的規則、解碼器等告警原理以及主動響應 1.主動響應(active-response) 2.告警信息(alerts) 3.規則以及解碼器(rules and decoders) 3.1.規則 3.2.解碼器 4.linux后門r…