《第5章-信息系統工程之數據工程(第三部分)》
- 2 數據工程
- 2.1 數據建模
- 2.2 數據標準化
- 2.3 數據運維
- 2.4 數據開發利用
- 2.5 數據庫安全
2 數據工程
2.1 數據建模
1、根據模型應用目的不同,可以將數據模型劃分為三類:概念
模型
、邏輯
模型
和物理
模型
。
模型 | 解釋說明 |
---|---|
概念模型 | 也稱信息模型,它是按用戶的觀點來對數據和信息建模,也就是說,把現實世界中的客觀對象抽象為某一種信息結構,這種信息結構不依賴于具體的計算機系統,也不對應某個具體的DBMS.它是概念級別的模型 |
邏輯模型 | 1.目前主要的數據結構有層次模型、網狀模型、關系模型、面向對象模型和對象關系模型 。其中,關系模型 成為目前好要的一種邏輯數據模型。2.關系數據模型的數據操作主要包括 查詢、插入、刪除 和更新數據 ,這些操作必須滿足關系的完整性約束條件。3.關系的完整性約束包括三大類型: 實體完整性、參照完整性 和用戶定義的完整性 。 |
物理模型 | 物理數據模型是在邏輯數據模型的基礎上,考慮各種具體的技術實現因素 ,進行數據庫體系結構設,真正實現數據在數據庫中的存放 。物理數據模型的內容包括確定所有的表和列,定義外鍵用于確定表之間的關系,基于性能的需求可能進行反規范化處理等內容。物理模型的基本元素包括表、字段、視圖、索引、存儲過程、觸發器 等,其中表、 字段和視圖等元素與邏輯模型中基本元素有一定的對應關系 |
2、數據建 模過程包括數據需求分析、概念模型設計、邏輯模型設計
和物理模型設計
等過程。
數據建模過程 | 具體內容 |
---|---|
數據需求分析 | 用戶需求一數據流圖 |
概念模型設計 | 將需求分析得到結果抽象為概念模型的過程就是概念模型設計,其任務是確定實體和數據及其關聯,建名邏輯模型,關系模式 |
邏輯模型設計 | 建立概念模型 ,其任務是確定實體和數據及其關聯即E-R圖 |
物理模型設計 | 將數據模型轉換為真正的數據庫結構,還需要針對具體的DBMS進行物理模型設計,使數據模型走向數據存儲應用環節,主要問題包括命名、確定字段類型和編寫必要的存儲過程與觸發器 等 |
2.2 數據標準化
1、數據標準化是實現數據共享的基礎。使得數據簡單化、結構化和標準化。
2、數據標準化的主要內容包括元數據標準化、數據元標準化、數據模式標準化、數據分類與編碼標準化
和數據標準化管理
。
過程 | 解釋說明 |
---|---|
元數據標準化 | 元數據是關于數據的數據。元數據被定義為提供關于信息資源或數據的一種結構化數據,是對信息資源的結構化描述。其實質是用于描述信息資源或數據的內容、 覆蓋范圍、質量、管理方式、數據的所有者、數據的提供方式等有關的信息。 |
數據元標準化 | 開放系統互連環境(OSIE)四個基本要素(硬件、軟件、通信和數據)中的三個要素(硬件、軟件和通信) |
1.數據元:是數據庫、文件和數據交換的基本數據單元。數據庫或文件由記錄或元組等組成,而記錄或元組則由數據元組成.由對象、特性和表示組成。 2.數據元提取:方法有兩種:自上而下(Top-Down)和自下而上(Down-Top)提取法。對于新建系統的數據元提取,一般適用“自上而下”的提取法。 3.數據元標準 | |
數據模式標準化 | 1.本質:規范化處理,減少冗余2.數據模式的描述方式主要有圖描述方法和數據字典方法。圖描述方法常用的有IDEFIX方法和UML圖,主要用來描述數據集中的實體和實體之間的相互關系;數據字典形式用來描述模型中的數據集、單個實體、屬性的摘要信息。 |
數據分類和編碼標準化 | 就是把數據分類與編碼工作納入標準化工作的領域,按標準化的要求和工作程序, 將各種數據按照科學的原則進行分類以編碼,經有關方面協商一致,由主管機構批準、注冊,以標準的形式發Q作為共同遵守的準則和依據,并在其相應的級別范圍內宣貫和推行。 |
數據標準化管理 | 包括確定數據需求、制定數據標準、批準數據標準和實施數據標準四個階段 |
1.確定數據需求:將產生數據需求及相關的元數據、域值等文件。 2.制定數據標準:要處理“確定數據需求”階段提出的數據需求。如果現有的數據標準不能滿足該數據需求,可以建議制定新的數據標準,也可建議修改或者封存已有數據標準。 3.批準數據標準:數據管理機構對提交的數據標準建議、現行數據標準的修改或封存建加行審查一經批準,該數據標準將擴充或修改數據模型。 4.實施數據標準:涉及在各信息系統中實施和改進已批準的數據標準。 |
2.3 數據運維
過程 | 解釋說明 |
---|---|
數據存儲 | 就是根據不同的應用環境,通過采取合理、安全、有效的方式將數據保存到物理介質上,并能保證對數據實施有效的訪問 |
數據備份 | 1.數據備份是為了防止由于用戶操作失誤、系統故障等意外原因導致的數據丟失, 而將整個應用系統的數據或一部分關鍵數據復制到其他存儲介質上的過程。 2.數據備份結構可以分為四:DAS備份結構、基于LAN的備份結構、LANFREE備份結構和SERVER-FREE備份結構。 3.常見的備份策略主要有三種:完全備份、差分備份和增量備份。 |
數據容災 | 1.根據容災系統保護對象的不同,容災系統分為應用容災和數據容災兩類。 👉應用容災用于克服災難對系統的影響,保證應用服務的完整、可靠和安全等一系列要求,使得用戶在任何情況下都能得到正常的服務; 👉 數據容災關注于保證用戶數據的高可用性,在災難發生時能夠保證應用系統中數據盡量少丟失或不丟失,使得應用系統能不間斷地運行或盡快地恢復正常運行。 2.衡量容災系統有兩個主要指標:RPO和RTO,其中RPO代表了當災難發生時允許丟失的數據量;而RTO則代表了系統恢復的時間。 |
數據質量與評價控制 | 1.數據質量描述:數據質量可以通過數據質量元素來描述,數據質量元素分為數據質量定量元素和數據質量非定量元素。 2.數據質量評價過程 3.數據質量評價方法:直接評價法和間接評價法: 👉 直接評價法:通過將數據與內部或外部的參照信息,如理論值等進行對比。確定數據質量。 👉 間接評價法利用數據相關信息,如數據只對數據源、采集方法等的描述推斷或評估數據質量。 4.數據質量控制:分成前期控制和后期控制兩個大部分。 👉前期控制包括數據錄入前的質量控制、數據錄入過程中的實時質量控制; 👉 后期控制為數據錄入完成后的后處理質量控制與評價。 依據建庫流程可分為:前期控制、過程控制、系統檢測、精度評價 5,數據清理:三個步驟:數據分析一數據檢測一數據修正 👉 數據分析:是指從數據中發現控制數據的一般規則,比如字段域、業務規則等, 通過對數據的分析,定義出數據清理的規則,并選擇合適的清理算法。 👉 數據檢測:是指根據預定義的清理規則及相關數據清理算法,檢測數據是否正確,比如是否滿足字段域業務規則等,或檢測記錄是否重復。 👉 數據修正:是指手工或自動地修正檢測到的錯誤數據或重復的記錄 |
2.4 數據開發利用
1、數據開發利用包括數據集成、數據挖掘和數據服務(目錄服務、查詢服務、瀏覽和下 載服務、數據分發服務)、數據可視化、信息檢索
等。
過程 | 解釋說明 |
---|---|
數據集成 | 1.將駐留在不同數據源中的數據進行整合,向用戶提供統一的數據視圖,使得用戶能以透明的方式訪問數據2.數據集成的目標就是充分利用已有數據,在盡量保持其自治性的前提下,維護數據源整體上的一致性,提高數據共享利用效率。實現數據集成的系統稱為數據集成系統,它為用戶提供了統一的數據源訪問接口,用于執行用戶對數據源的訪問請求。 |
數據挖掘 | 1.從大量數據中提取或“挖掘”知識,即從大量的、不完全的、有噪聲的、模糊的、 隨機的實際數據中,提取隱含在其中的、人們不知道的、卻是潛在有用的知識。 2.數據挖掘主要任務: 數據總結、關聯分析、分類和預測、聚類分析和孤立點分析 。3.數據挖掘流程: 確定分析對象、數據準備、數據挖掘、結果評估與結果應用 五階段 |
數據服務 | 數據服務主要包括數據且受服務、數據查詢與瀏覽及下載服務、數據分發服務。 1 . 數據目錄服務 :建立目錄方便檢索服務。2. 數據查詢與瀏覽及下載服務 :是網上數據共享服務的重要方式,用戶使用數據的方式有查詢數據和下載數據兩種。3. 數據分發服務 :是指數據的生產者通過各種方式將數據傳送到用戶的過程。 |
數據可視化 | 1.指將抽象的事物或過程變成圖形圖像的表示方法 2.可視化的表現方式分為七類:一維數據可視化、二維數據可視化、三維數據可視化、 多維數據可視化、時態數據可視化、層次數據可視化和網絡數據可視化。 |
信息檢索 | 1.信息檢索的方法:全文檢索、字段檢索、基于內容的多媒體檢索、數據挖掘 。2.信息檢索的常用技術包括 布爾邏輯檢索技術、截詞檢索技術、臨近檢索技術、限定字段檢索技術、限制檢索技術 等。 |
2.5 數據庫安全
1、數據庫安全對策
安全對策 | 要點 |
---|---|
防止非法的數據訪問 | 數據庫管理系統必須根據用戶或應用的授權 來檢查訪問請求,以保證僅允許授權的用戶訪問數據庫 |
防止推導 | 指的是用戶通過授權訪問的數據,經過推導得出機密信息,而按照安全策略, 該用戶是無權訪問此機密信息的 |
保證數據庫的完整性 | 是保護數據庫不受非授權修改 ,以及不會因為病毒、系統中的錯誤等導致的存儲數據破壞。這種保護通過訪問控制、備份/恢復以及一些專用的安全機制共同實現 |
保證數據的操作完整性 | 定位于在并發事務中保證數據庫中數據的邏輯一致性 。由并發管理器子系統負責 |
保證數據的語義完整性 | 在修改數據時,保證新值在一定范圍內符合邏輯上的完整性。對數據值的約束通過完整性約束來描述。 |
審計和日志 | 審計和日志是有效的威懾和事后追查、分析工具 |
標識和認證 | 標識和認證是授權、審計等的前提條件是第一道安全防線 |
機密數據管理 | 對于同時保存機密和公開數據的數據庫而言,訪問控制主要保證機密數據的保密性,僅允許授權用戶的訪問。這些用戶被賦予對機密數據進行一系列操作的權限,并且禁止傳播這些權限。 |
多級保護 | 將數據劃分不同保密級別,戶只能訪問擁有的權限所對應級別的數據 |
限界 | 限界的意義在于防止程序之間出現非授權的信息傳遞 |
2、數據庫安全機制包括用戶的身份認證、存取控制、數據庫加密、數據審計、推理控制
等內容。