【數據分析三:Data Storage】數據存儲

數據真是越來越多啊


正文開始

一、數據

結構化數據

????????可以使用關系型數據庫表示和存儲的數據,擁有固定結構

半結構化數據

????????弱結構化,雖然不符合關系型數據模型的要求,但是含有相關的標記(自描述結構),分割實體及其屬性 。如:XML,JSON等

非結構化數據

????????沒有固定數據結構,或很難發現統一數據結構的數據

????????文檔,文本,圖片,視頻,音頻等

二、數據庫

數據庫(Database, DB)

????????長期儲存在計算機內、有組織的可共享大量數據的集合。

數據庫管理系統(Database Management System, DBMS)

????????位于用戶與操作系統之間的一層數據管理軟件

數據庫系統(Database System,簡稱DBS)

????????在計算機系統中引入數據庫后的系統構成

????????DB、DBMS(及其開發工具)、應用系統、數據庫管理員

關系型數據庫系統(SQL

????????關系模型中數據的邏輯結構是一張二維表,行與列

????????特點:結構化

????????概念:關系,屬性,元組

????????優點1:管理效率高(十萬,百萬,千萬… )

??????? 數據庫操作: 增、刪、改、查 ,通過 SQL 語言完成
??????? 優點2 存取路徑對用戶隱蔽,用戶只要指出“干什么”,不必詳細說明“怎么干”

數據庫的安全性:自主存取控制與強制存取控制

自主存取控制(Discretionary Access Control ,簡稱DAC)

????????用戶可“自主”地決定將數據的存取權限授予何人、決定是否也將“授予”的權限授予別人

強制存取控制(Mandatory Access Control,簡稱 MAC)

????????系統“強制”地給用戶和數據標記安全等級

????????(1)僅當主體(如用戶)的許可證級別大于或等于客體(數據,表,索引等)的密級時,該主體才能讀取相應的客體

????????(2)僅當主體的許可證級別小于或等于客體(數據)的密級時,該主體才能寫相應的客體

數據庫的效率:索引

????????建立索引(Index)的目的:加快查詢速度

????????誰可以建立索引

????????????????DBA 或 表的屬主(即建立表的人)

????????????????DBMS一般會自動建立以下列上的索引

????????????????????????PRIMARY KEY

????????????????????????UNIQUE

????????誰維護索引

????????????????DBMS自動完成

使用索引

????????DBMS自動選擇是否使用索引以及使用哪些索引

RDBMS中索引一般采用B+樹、HASH索引來實現

????????B+/B-樹索引具有動態平衡的優點

????????HASH索引具有查找速度快的特點

NoSQL(Not Only SQL)

????????非關系型的DBMS,不同于傳統關系型DB的DBMS的統稱

????????超大規模數據存儲,不需要固定模式,無需多余操作橫向擴展

為什么NoSQL?(大數據)

????????數據量的飛速增長:GB-TB-PB

????????RDBMS的范式約束、事務特性、磁盤IO等特點的限制

????????開發需求的前期不明確

如果要詳細學習NoSQL:可以學習MongoDB

MongoDB VS MySQL

NoSQL適用于

????????數據模型比較簡單;

????????需要靈活性更強的IT系統;

????????對DBMS性能要求較高;

????????不需要高度的數據一致性;

????????對于給定key,比較容易映射復雜值的環境

附:想要查看各個數據庫的使用排名,可以去看如下鏈接

https://db-engines.com/en/rankinghttps://db-engines.com/en/ranking

三、爬蟲及數據庫學習分享鏈接

Beautiful Soup

Beautiful Soup 4.4.0 文檔 — beautifulsoup 4.4.0q 文檔http://beautifulsoup.readthedocs.io/zh_CN/latest/

MongoDB教程

MongoDB 教程 | 菜鳥教程MongoDB 教程 MongoDB是一個流行的開源文檔型數據庫,它使用類似 JSON 的文檔模型存儲數據,這使得數據存儲變得非常靈活。 MongoDB 是一個基于文檔的 NoSQL 數據庫,由 MongoDB Inc. 開發。 MongoDB 旨在為 WEB 應用提供可擴展的高性能數據存儲解決方案。 MongoDB 是一個介于關系數據庫和非關系數據庫之間的產品,是非關系數據庫當中功能最豐富,最像關系數據庫的。 現在開始學習 ..http://www.runoob.com/mongodb/mongodb-tutorial.html

CSS選擇器教程

CSS 選擇器參考手冊http://www.w3school.com.cn/cssref/css_selectors.asp

jsoup教程

http://blog.csdn.net/column/details/jsoup.htmlhttp://blog.csdn.net/column/details/jsoup.html

scrapy教程

Scrapy入門教程 — Scrapy 0.24.6 文檔http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html


下一講,我們將講述數據預處理

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/85444.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/85444.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/85444.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring Boot 整合 Spring AI 與 MCP 開發智能體工具指南

Spring Boot 整合 Spring AI 與 MCP 開發智能體工具指南 一、引言 隨著大語言模型(LLM)的普及,越來越多的開發者希望將其集成到自己的應用中。Spring AI 作為 Spring 生態下的 AI 集成框架,提供了便捷的方式來對接各種大模型。而 MCP(Model Context Pr…

【開源項目】GraphRAG Agent:可解釋、可推理的下一代智能問答系統

GraphRAG Agent:可解釋、可推理的下一代智能問答系統 ??引言?? 傳統 RAG(檢索增強生成)系統常因“黑盒推理”和上下文斷裂被詬病。微軟開源的 GraphRAG 框架嘗試用知識圖譜解決這一問題,而??Graph RAG Agent??&#xff0…

【論文筆記】【強化微調】AgentThink:思維鏈推理 + 工具調用

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving 1. 引述 這是一篇自動駕駛領域的論文。我對這篇論文主要感興趣的點在于其對于工具調用(Tool Call)的設計。這一點同…

前端頁面Javascript進階DOM與BOM

一、DOM基礎概念 DOM 是文檔對象模型,提供編程接口用于操作 HTML 和 XML 文檔。它將文檔表示為節點樹,每個節點代表文檔的一部分,如元素、文本、屬性等。通過 DOM,開發者可以訪問和修改文檔的結構、樣式與內容。 文檔節點類型 …

AWS CloudFormation深度解析:構建現代云原生應用基礎設施

在現代云原生應用開發中,基礎設施即代碼(Infrastructure as Code, IaC)已成為標準實踐。本文將深入解析一個完整的AWS CloudFormation模板,該模板為GlowChat Connector應用構建了生產級的基礎設施。 模板概述 這個CloudFormation模板是一個兩部分部署架構中的第一部分,專…

Oracle 查看所有表的字段名、數據類型及長度

1.只查看某個特定表的字段名 SELECT column_name, data_type, data_length FROM user_tab_columns WHERE table_name 你的表名 -- 注意大寫 ORDER BY column_id;2.查看當前用戶下所有表的字段名 SELECT table_name, column_name, data_type, data_length FROM user_tab_colu…

創客匠人分享知識付費監管升級下的行業價值重構:從合規挑戰到發展機遇的實踐路徑

引言:監管政策背后的行業邏輯轉向 知識付費領域的監管體系升級,本質上是對行業發展路徑的重新校準。隨著 "內容產品需具備知識沉淀載體" 等新規落地,行業正在經歷從 "流量驅動型增長" 到 "價值驅動型發展" 的…

邊緣計算的認識和應用

邊緣計算 邊緣計算是一種分布式計算范式,它將計算能力和數據存儲放置在離數據源更近的位置,而不是依賴于集中式的數據中心。通過在“邊緣”進行數據處理,邊緣計算可以減少延遲、提高響應速度、節省帶寬,并增強數據隱私和安全性。…

Arduino R4 WIFI橫向滾動顯示16×16LED屏

實現一個從左向右橫向滾動的"吉祥如意"顯示效果。 arduino r4 WiFi滾動顯示16*16led #include <SPI.h>// 引腳定義 const int RowA 2, RowB 3, RowC 4, RowD 5; const int OE 6; const int LATCH 10;// 字模數據 (吉祥如意) const PROGMEM byte characte…

html css js網頁制作成品——HTML+CSS+js力學光學天文網頁設計(4頁)附源碼

目錄 一、&#x1f468;?&#x1f393;網站題目 二、??網站描述 三、&#x1f4da;網站介紹 四、&#x1f310;網站效果 五、&#x1fa93; 代碼實現 &#x1f9f1;HTML 六、&#x1f947; 如何讓學習不再盲目 七、&#x1f381;更多干貨 一、&#x1f468;?&#x1f…

嵌入式開發之freeRTOS移植

FreeRTOS 是一款廣泛應用于嵌入式系統的開源實時操作系統&#xff08;RTOS&#xff09;&#xff0c;其移植過程需要結合具體硬件平臺和編譯器進行適配。以下是 FreeRTOS 移植的詳細步驟和關鍵注意事項&#xff1a; 一、移植前的準備工作 1. 硬件平臺確認 處理器架構&#xf…

【算法 day07】LeetCode 344.反轉字符串 | 541. 反轉字符串II | 卡碼網:54.替換數字

344.反轉字符串 題目鏈接 | 文檔講解 |視頻講解 : 鏈接 1.思路&#xff1a; 采用雙指針&#xff0c;left從0開始移動,right從尾元素進行移動 循環判斷條件&#xff1a;left< right,邊界值使用舉例法&#xff0c;eg: [ h ,e ,l,o ]偶數個不會相遇, [h ,e ,l ,l ,o ]奇數個&…

從檢索到生成:RAG 如何重構大模型的知識邊界?

引言&#xff1a;知識邊界的突破與重構 在人工智能技術快速發展的今天&#xff0c;大型語言模型&#xff08;LLMs&#xff09;已經展現出強大的文本生成和理解能力。然而&#xff0c;這些模型在實際應用中仍面臨著知識時效性、事實準確性和可溯源性等核心挑戰。檢索增強生成&a…

前端基礎知識CSS系列 - 05(BFC的理解)

一、是什么 我們在頁面布局的時候&#xff0c;經常出現以下情況&#xff1a; 這個元素高度怎么沒了&#xff1f;這兩欄布局怎么沒法自適應&#xff1f;這兩個元素的間距怎么有點奇怪的樣子&#xff1f;...... 原因是元素之間相互的影響&#xff0c;導致了意料之外的情況&…

Prompt Engineering 學習指南:從入門到精通的最佳路徑與資源

本 Prompt Engineering 技術報告,旨在提供一個從入門到精通的清晰學習路徑、核心方案,并附上最關鍵的 GitHub 倉庫資源。您可以將此報告作為快速提升 Prompt 能力的“速查手冊”和“成長地圖”。 Prompt Engineering 學習指南:從入門到精通的最佳路徑與資源 技術報告摘要 (…

fastmcp MCPConfig多服務器使用案例;sse、stdio、streamable-http使用

1、sse、stdio、streamable-http使用 參考&#xff1a;https://gofastmcp.com/deployment/running-server#the-run-method stdio本地使用&#xff1b;sse、streamable-http遠程調用&#xff08; Streamable HTTP—New in version: 2.3.0&#xff09; 調用&#xff1a; stdio、…

網站服務器被DDOS攻擊打不開,是要換高防服務器還是加CDN能防護住?

高防云服務器、高防 IP 和高防 CDN 作為常見應對網絡攻擊的重要利器&#xff0c;它們各自有著獨特的特點和應用場景&#xff0c;從技術架構看&#xff0c;高防云服務器是資源型防護&#xff0c;深度整合計算與防御資源&#xff1b;高防IP是流量型防護&#xff0c;以代理模式實現…

深入解析原型模式:從理論到實踐的全方位指南

深入解析原型模式&#xff1a;從理論到實踐的全方位指南 引言&#xff1a;為什么需要原型模式&#xff1f; 在軟件開發過程中&#xff0c;對象創建是一個頻繁且關鍵的操作。傳統方式&#xff08;如直接使用new關鍵字&#xff09;在某些場景下會顯得效率低下且不夠靈活。想象這…

HuggingFace鏡像配置失效問題深度解析:Python模塊導入機制的陷阱

前言 在使用HuggingFace的transformers和datasets庫時&#xff0c;國內用戶經常會遇到網絡連接問題。雖然設置了鏡像源環境變量&#xff0c;但仍然報錯無法連接到huggingface.co。本文將深入分析這個問題的根因&#xff0c;并從Python模塊導入機制的角度解釋為什么環境變量設置…

leetcode146-LRU緩存

leetcode 146 思路 什么是LRU緩存&#xff1f; LRU&#xff08;Least Recently Used&#xff09;緩存是一種常見的緩存淘汰策略&#xff0c;核心思想是&#xff1a;當緩存容量滿時&#xff0c;優先淘汰最久未使用的數據。LeetCode 146 題要求實現一個支持get和put操作的 LR…