B.50.10.06-NoSQL數據庫與電商應用

NoSQL數據庫核心原理與電商應用實戰

核心思想: NoSQL (Not Only SQL) 數據庫是為了解決傳統關系型數據庫在超大規模數據、高并發和靈活數據模型方面的不足而設計的。它們通過犧牲部分一致性（通常是最終一致性）和事務的嚴格性，來換取極高的性能和可擴展性。

第1章：NoSQL核心概念與選型指南

1.1. NoSQL核心理念

NoSQL數據庫的出現是為了解決傳統關系型數據庫在以下場景中的局限性：

超大規模數據存儲：傳統關系型數據庫在處理PB級數據時性能急劇下降
高并發讀寫：關系型數據庫的鎖機制和事務處理在高并發場景下成為瓶頸
靈活數據模型：關系型數據庫的嚴格表結構難以適應快速變化的業務需求

NoSQL通過CAP理論的權衡（通常選擇AP而犧牲C），實現了極高的性能和可擴展性。

1.2. NoSQL數據庫分類與選型

類型	代表產品	核心優勢	典型應用場景	數據一致性
鍵值存儲	Redis, Memcached	極高的讀寫性能，豐富的數據結構	分布式緩存、會話存儲、分布式鎖、排行榜	最終一致性
文檔數據庫	MongoDB	靈活的類JSON數據模型，強大的查詢語言	內容管理系統、用戶畫像、移動應用后端	最終一致性
搜索引擎	Elasticsearch, Solr	強大的全文檢索和實時數據分析能力	日志分析(ELK)、商品搜索、應用內搜索	最終一致性
列式數據庫	HBase, Cassandra	極佳的水平擴展能力，適合海量數據寫入	物聯網數據、用戶行為日志、消息流數據	最終一致性/強一致性(Cassandra)

1.3. NoSQL與關系型數據庫的對比

特性	關系型數據庫	NoSQL數據庫
數據模型	嚴格的表結構，需要預先定義	靈活的數據模型，可動態調整
擴展性	垂直擴展為主，水平擴展困難	天然支持水平擴展
事務支持	ACID事務	BASE理論，最終一致性
查詢語言	SQL	各自特定的查詢語言
性能	中等	極高（針對特定場景）
一致性	強一致性	最終一致性

第2章：Redis核心原理與電商應用

核心定位: 基于內存的高性能鍵值數據庫，通常用作分布式緩存來降低后端數據庫壓力。

2.1. Redis核心數據結構

Redis支持多種數據結構，每種都有其特定的應用場景：

String: 最基本類型，可以是字符串、整數或浮點數。用于緩存、計數器。
Hash: 字段-值（field-value）對的集合，適合存儲對象。
List: 字符串列表，按插入順序排序。可實現隊列、棧。
Set: 無序的唯一字符串集合。用于標簽、好友關系。
Sorted Set (ZSet): 每個元素關聯一個分數，按分數排序的集合。用于排行榜、帶權重的任務隊列。
Bitmaps: 位圖，用于統計活躍用戶等場景。
HyperLogLog: 用于基數統計，如統計網站UV。
Geo: 地理位置相關數據結構。

2.2. Redis持久化機制

Redis提供了兩種持久化機制，可根據業務需求選擇：

RDB (Redis Database): 在指定時間間隔內生成數據集的快照。
- 優點: 文件緊湊，恢復速度快，適合備份
- 缺點: 可能丟失最后一次快照后的數據
AOF (Append Only File): 記錄所有寫操作命令。
- 優點: 數據最完整，支持多種同步策略
- 缺點: 文件體積大，恢復速度慢
生產環境建議: RDB和AOF同時開啟，結合使用

2.3. Redis高可用方案

主從復制: 實現讀寫分離和數據備份
哨兵模式 (Sentinel): 自動故障檢測和主從切換
集群模式 (Cluster): 數據分片和高可用性

2.4. 緩存三大問題與對策

緩存穿透: 查詢一個不存在的數據，導致請求繞過緩存，直接打到數據庫。
- 對策: 1. 緩存空值: 將數據庫返回的空結果也緩存起來，但設置較短的過期時間。2. 布隆過濾器: 在訪問緩存前，通過布隆過濾器快速判斷數據是否存在，攔截大量非法請求。
緩存擊穿: 一個熱點Key在失效的瞬間，大量并發請求同時涌入，直接打到數據庫。
- 對策: 1. 互斥鎖: 只允許一個線程去查詢數據庫并回寫緩存，其他線程等待。2. 熱點數據永不過期。
緩存雪崩: 大量Key在同一時間集中失效，導致數據庫壓力瞬時劇增。
- 對策: 1. 過期時間打散: 在基礎過期時間上增加一個隨機值。2. 服務熔斷/降級: 暫時關閉非核心功能，保證核心服務可用。

2.5. Redis分布式鎖實現

Redis在分布式系統中常用于實現分布式鎖，主要利用SET key value NX EX seconds原子命令：

SET lock_key random_value NX EX 30

關鍵要點:

Value要唯一: value應存入一個唯一的ID，釋放鎖時先GET比對，防止誤刪他人的鎖
設置過期時間: 防止客戶端宕機導致死鎖
原子性操作: 使用Lua腳本保證釋放鎖的原子性

生產級解決方案: 使用Redisson等成熟客戶端，其提供了看門狗機制自動續期，避免業務執行時間超過鎖過期時間的問題。

第3章：MongoDB核心原理與電商應用

核心定位: 面向文檔的數據庫，以類JSON的BSON格式存儲數據，模式靈活，非常適合敏捷開發和半結構化數據。

3.1. MongoDB核心概念

文檔 (Document): 數據基本單元，類似于JSON對象。
集合 (Collection): 文檔的集合，類似于關系數據庫的表。
數據庫 (Database): 集合的容器，一個MongoDB實例可以包含多個數據庫。
ObjectId: MongoDB默認的主鍵類型，包含時間戳、機器標識、進程ID和計數器。

3.2. MongoDB索引機制

MongoDB支持多種索引類型：

單字段索引: 對單個字段建立索引
復合索引: 對多個字段建立索引，遵循最左前綴原則
多鍵索引: 對數組字段建立索引
文本索引: 支持文本搜索
地理空間索引: 支持地理位置查詢

3.3. 聚合管道 (Aggregation Pipeline)

MongoDB的聚合管道是一個強大的數據處理框架，允許對文檔進行多階段的轉換和分析：

db.orders.aggregate([{$match: { status: "completed" } // 第一階段：篩選已完成的訂單},{$group: { // 第二階段：按用戶ID分組，并計算總金額_id: "$userId",totalAmount: { $sum: "$amount" }}},{$sort: { totalAmount: -1 } // 第三階段：按總金額降序排序}
])

3.4. MongoDB高可用方案

副本集 (Replica Set): 自動故障轉移和數據冗余
分片集群 (Sharded Cluster): 水平擴展，處理海量數據

第4章：Elasticsearch核心原理與電商應用

核心定位: 基于Lucene庫的分布式搜索引擎，提供強大的全文檢索、實時分析和可擴展性。

4.1. 核心原理：倒排索引

傳統的關系數據庫索引是"文檔 -> 單詞"，而倒排索引是**“單詞 -> 文檔列表”。ES會對文檔內容進行分詞**，然后為每個詞條創建一個包含它的所有文檔的列表。這使得基于關鍵詞的搜索變得極其高效。

4.2. 核心概念

索引 (Index): 類似于關系數據庫的數據庫
類型 (Type): 類似于關系數據庫的表（在ES 7.x后已廢棄）
文檔 (Document): 類似于關系數據庫的行
字段 (Field): 類似于關系數據庫的列
映射 (Mapping): 定義字段的數據類型和屬性
分片 (Shard): 索引的水平分割單元
副本 (Replica): 分片的備份，提供高可用性

4.3. 寫入與查詢流程

寫入流程: 客戶端請求 -> 協調節點 -> 路由到主分片 -> 主分片寫入 -> 同步到副本分片 -> 確認。
查詢DSL (Domain Specific Language): ES提供了一套豐富的基于JSON的查詢語言，可以實現從簡單匹配到復雜的多條件、多層次的組合查詢。

4.4. 性能優化關鍵點

避免深度分頁: 使用scroll或search_after來處理大量數據的分頁，而不是from + size。
冷熱數據分離: 將訪問頻繁的熱數據存儲在高性能的SSD節點，將不常用的冷數據存儲在低成本的HDD節點。
合理設置分片: 分片不是越多越好，過多的分片會增加管理開銷。通常建議單個分片大小在10GB到50GB之間。

第5章：HBase核心原理與電商應用

核心定位: 基于Hadoop的分布式列式數據庫，適合海量數據的隨機讀寫。

5.1. HBase核心概念

RowKey: 行鍵，HBase中數據的唯一標識，按字典序存儲
Column Family: 列族，相關列的集合
Column Qualifier: 列限定符，列族下的具體列
Timestamp: 時間戳，用于版本控制
Region: 表的水平分割單元

5.2. RowKey設計原則

RowKey設計是HBase性能的關鍵：

避免熱點: 如果RowKey是連續的（如時間戳），會導致所有寫操作集中在單個RegionServer，形成熱點。通常需要散列化或反轉RowKey。
查詢效率: 將常用于查詢的字段放在RowKey中，可以實現高效的范圍掃描。

5.3. HBase架構

HMaster: 管理RegionServer，處理元數據操作
RegionServer: 存儲實際數據，處理讀寫請求
ZooKeeper: 協調服務，維護集群狀態

第6章：電商場景NoSQL應用實踐

6.1. 商品系統

Redis: 緩存熱門商品信息，存儲商品庫存
MongoDB: 存儲商品詳情、分類信息
Elasticsearch: 商品搜索功能

6.2. 用戶系統

Redis: 存儲用戶會話、Token信息
MongoDB: 存儲用戶基本信息、地址信息
HBase: 存儲用戶行為日志

6.3. 訂單系統

Redis: 分布式鎖防止超賣，緩存訂單狀態
MongoDB: 存儲訂單詳情
HBase: 存儲訂單流水日志

6.4. 推薦系統

Redis: 存儲用戶實時行為數據
MongoDB: 存儲用戶畫像數據
HBase: 存儲用戶歷史行為數據

第7章：核心概念

Q: Redis的分布式鎖如何實現？需要注意什么？
A: 主要利用SET key value NX EX seconds這個原子命令。NX保證只有鍵不存在時才設置成功（獲取鎖），EX設置過期時間防止死鎖。注意事項: 1. Value要唯一: value應存入一個唯一的ID，釋放鎖時先GET比對，防止誤刪他人的鎖。2. 鎖續期: 對于長時間任務，需要一個"看門狗"機制來為鎖自動續期。Redisson等客戶端已完美實現這些功能。

Q: Elasticsearch的寫入流程為什么是近實時的？
A: ES的寫操作首先是寫入內存中的buffer和translog（事務日志）。數據只有在refresh操作后（默認1秒一次），才會從buffer生成一個新的段(Segment)并刷新到文件系統緩存中，此時數據才能被搜索到。所以它不是嚴格的實時，而是"近實時"。

Q: HBase的RowKey為什么要精心設計？
A: HBase是圍繞RowKey構建的，數據按RowKey的字典序物理存儲。一個好的RowKey設計至關重要：1. 避免熱點: 如果RowKey是連續的（如時間戳），會導致所有寫操作集中在單個RegionServer，形成熱點。通常需要散列化或反轉RowKey。2. 查詢效率: 將常用于查詢的字段放在RowKey中，可以實現高效的范圍掃描。

Q: MongoDB的副本集是如何保證高可用的？
A: MongoDB副本集通過以下機制保證高可用：