西電【信息與內容安全】課程期末復習筆記
來自2022年春的古早遺留檔案,有人需要這個,我就再發一下吧。
?
- 平時成績: 10%。
- 線上: 10% (線上學習內容, 共 100 分。)
- 實驗: 10% (共 2 次實驗, 每次實驗按 50 分制評分,共 100 分。)
- 論文: 20% (以任何信息與內容安全相關技術撰寫一篇學術報告,主題自擬,可適當結合自身研究方向,按所提供 word 模板不少于雙欄 4 頁。 注意,不允許綜述型論文)
- 考試: 50%
?
?
?
重點
信息與內容安全簡介
信息與內容安全概述
內容域與網絡域
信息內容安全定義
-
信息內容安全是信息安全在法律、政治、道德層次上的要求,是語義層次的安全。我們要求信息內容是安全的,就是要求信息內容在政治上是健康的, 在法律上是符合國家法律法規的,在道德上是符合中華民族優良的道德規范的。
-
廣義的信息內容安全既包括信息內容在政治、法律和道德方面的要求,也包括:
- 數據的獲取,
- 信息內容的分析與識別,
- 數字圖像視頻內容安全,
- 多媒體信息隱藏,
- 隱私保護
- 等諸多方面。
?
信息內容安全的研究意義
- 隨著大數據時代的到來以及科學技術的不斷進步,數字資料的獲取、存儲、傳輸、編輯、轉移和利用更加便利,然而人們也可以對其進行任意修改和偽造。
- 對互聯網上數字媒體信息的真實性和完整性進行破壞,一方面侵犯個人隱私、版權保護問題,另一方面對社會公共秩序、軍事和國家安全等方面均會產生不良影響。
- 虛假新聞的社會傳播的往往產生嚴重后果, 暴力煽動語言的破壞性尤其巨大
- 隨著密碼和圖像水印技術的普及,網上利用信息加密與內容隱藏等技術,隱秘傳輸非法信息的現象日益普遍
機器學習簡介
了解
機器學習
假設用 𝑃 來評估計算機程序在某任務 𝑇 上的性能,若一個程序通過利用經驗 𝐸 在 𝑇 中任務上獲得了性能改善,則我們就說關于 𝑇 和 𝑃,該程序對 𝐸 進行了學習
機器學習的三個步驟:
- 一組方程
- 衡量方程的優劣
- 找出最好的方程
?
深度學習
深度學習的三個步驟:
- 神經網絡
- 衡量方程的優劣
- 找出最好的方程
對抗樣本攻擊
機器學習算法以數字向量的形式接受輸入。以一種特定的方式設計輸入,從而從模型中得到一個錯誤的結果,這便被稱為對抗性攻擊
?
?
?
信息獲取與表示
信息內容的獲取
獲取
網絡信息內容的類型
- 網絡媒體信息
- 網絡通訊信息
網絡媒體信息獲取方法
- 網絡媒體信息獲取方法
- 基于自然人網絡瀏覽行為模擬的信息獲取
?
?
信息內容的表示
視覺信息特征
視覺信息的處理過程:
獲取、壓縮、傳輸、重建、處理
人眼兩種細胞的區分
- 錐狀細胞:高亮度、細節信息、快速變化、數量上
- 柱狀細胞:低亮度、數量多
三原色
像素化
電腦中表示圖像信息
顏色特征
- 直方圖
- 主色調……
紋理特征
-
LBP(考計算)
-
HOG(理解)
-
SIFT(深度學習之前最經典的特征,基本原理,尺度不變)
文本特征
文本特征表達(one-hot),另外三種方法的基本概念
1-of-N Encoding( One-hot Encoding)
如何將文本表達成向量?
- 詞頻: 詞頻是一個詞在文檔中出現的次數。通過詞頻進行特征選擇就是將詞頻小于某一閉值或大于某一值的詞刪除,從而降低特征空間的維數。
- 文檔頻數: 文檔頻數(Document Frequency, DF)是最為簡單的一種特征選擇算法,它指的是在整個數據集中有多少個文本包含這個單詞。
- TF-IDF:詞頻(TF)=某個詞在文章中的出現次數 / 文章的總詞數逆文檔頻率(IDF)=log(語料庫的文檔總數 / (包含該詞的文檔數+1))TF-IDF = TF * IDF
?
?
音頻特征
音頻特征表達(流程圖,變成彩色圖案)
增強、切片、DFT、頻譜圖、可視化、圖像分析方法
IDFT、MFCC
?
- IDFT
MFCC
?
?
深度學習基礎
選擇、填空、計算
三個步驟
-
設計神經網絡
-
評估網絡好壞
-
選擇最好的網絡
?
神經元、神經網絡
神經元的構造,激活函數,不要求計算,但要求掌握輸入輸出過程公式
神經網絡-全連接層
神經網絡基本概念,維度
全連接神經網絡:全部連接
交叉熵損失的訓練方法,梯度下降,反向傳播
?
?
?
卷積神經網絡
-
卷積:卷積的基本流程
-
卷積核
-
要求會計算卷積
-
優點
- 縮減參數
- 共享參數
-
-
池化:最大最小池化,輸入輸出位數
-
展平:
-
全連接:
(卷積、池化多次重復)
?
理解神經網絡
神經網絡可視化
?
經典神經網絡結構
(了解)
LeNet-5
AlexNet 2012
- ReLU
- 標準化
- Dropout
- 數據增廣
VGGNet
- 3x3 小卷積
- 16、19層
GoogLeNet
- 23層
- 不同尺度特征圖串聯
- 1x1 conv
ResNet
- 152層
- 殘差學習:跳層連接,解決梯度消失問題
?
生成對抗網絡 GAN
?
(偏概念)
生成器
判別器
GAN 步驟與原理
argmax/argmin的意思是在里面達到最大的時候,min/max下面那個變量的值
V(G,D)嚴格定義叫散度,但應該不要求掌握散度是啥,大概理解就是兩個圖像的差距
?
初始化生成器【輸入隨機向量】、判別器【輸入為圖像】,固定一個,更新一個【二者博弈得到生
成】
生成器原理【散度】
判別器原理【采樣】
GAN 里的各種公式,最大最小
PPT 上的特別小的公式了解為主
?
參考:DCGAN Tutorial — PyTorch Tutorials 1.11.0+cu102 documentation
?
Conditional GAN
(了解,可用圖像風格轉換)
條件的意思:輸入不是隨機向量,而是一個圖像
?
InfoGAN
主要區別:提供兩個輸入
普通的GAN存在無約束、不可控、噪聲信號z很難解釋等問題,2016年發表在NIPS頂會上的文章InfoGAN:Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets,提出了InfoGAN的生成對抗網絡。InfoGAN 主要特點是對GAN進行了一些改動,成功地讓網絡學到了可解釋的特征,網絡訓練完成之后,我們可以通過設定輸入生成器的隱含編碼來控制生成數據的特征。
作者將輸入生成器的隨機噪聲分成了兩部分:一部分是隨機噪聲Z, 另一部分是由若干隱變量拼接而成的latent code c。其中,c會有先驗的概率分布,可以離散也可以連續,用來代表生成數據的不同特征。例如:對于MNIST數據集,c包含離散部分和連續部分,離散部分取值為0~9的離散隨機變量(表示數字),連續部分有兩個連續型隨機變量(分別表示傾斜度和粗細度)。
InfoGAN-無監督式GAN - 簡書 (jianshu.com)
?
應用
了解即可
-
圖像翻譯
- Pix2Pix
- CycleGAN
- StarGAN:多合一
-
人臉屬性編輯
-
圖片質量增強
-
文本合成圖像
- Text-conditional GAN
-
圖像語義分割
-
人臉去遮擋任務
-
小物體檢測
?
?
Attack ML Models
?
?
在線社交網絡分析 與 輿情檢測
在線社交網絡分析
了解原理即可
在線社交網絡是一種在信息網絡上由社會個體集合及個體之間的連接關系構成的社會性結構,包含關系結構、 網絡群體與網絡信息三個要素。
在線社交網絡的三個維度
- 結構
- 群體
- 信息
在線社交網絡的地位和作用
- 政治
- 經濟
- 文化
- 生活
在線社交網絡分析定義
在線社交網絡分析是指從網絡結構、 群體互動、信息傳播三個維度,基于信息學、數學、社會學、管理學、心理學等多學科的融合理論和方法,為理解人類各種社交關系的形成、行為特點分析以及信息傳播的規律提供的一種可計算的分析方法。
?
信息傳播模型
(掌握原理)
影響力模型
每個節點有兩種狀態: 活躍(active)和不活躍(inactive), 只有活躍狀態的節點才具有影響力, 能夠影響其他節點。
當一個節點被其他節點影響成功時, 則稱該節點被激活, 不活躍狀態的節點不能激活其他節點。
社會網絡的影響力傳播表現為節點狀態由不活躍變激活為活躍, 狀態轉變是單向的, 即網絡中不存在由活躍變為不活躍的情況。
Independent Cascade (IC) 獨立級聯模型
Linear Threshold (LT) 線性閾值模型
?
?
傳染模型
傳染模型也叫流行病模型, 用于描述個人傳播傳染病的方式
節點有三種狀態
- S 易感人群:易感節點可能會感染疾病
- I 感染人群:感染節點有機會去感染易感人群
- R 免疫人群:感染節點被治愈后不會再得疾病的人群
Susceptible Infected Recovered (SIR)
設總人口為N(t), 則有N(t)=s(t)+i(t)+r(t)。
三個假設:
- 人口始終保持一個常數, 即N(t)≡K。
- 假設t時刻單位時間內, 一個病人能傳染的易感者數目與此環境內易感者總數s(t)成正比, 比例系數為β, 從而在t時刻單位時間內被所有病人傳染的人數為βs(t)i(t)。
- t時刻, 單位時間內從染病者中移出的人數與病人數量成正比, 比例系數為γ, 單位時間內移出者的數量為γi(t)
?
β: 易感節點被成功感染的概率
μ: 感染節點被治愈的概率
?
社交網絡傳播引導
如何投放信息使其傳播影響力最大?
影響力計算方法
就是總體過程求平均
?
影響力最大化貪婪算法
原理:只保留最大影響力的節點
?
?
社交網絡話題發現模型
概率潛在語義分析模型(PLSA) (了解為主)
?
?
?
輿情檢測
記憶基本概念,特性,演化流程
網絡輿情:是指以互聯網為載體所表達的公眾情緒,究其本質是社會情緒在互聯網這個可見載體上的公共表達。
網絡輿情特征
- 自發性
- 指向性
- 時效性
- 情緒性
- 片面性
網絡輿情演化
- 形成期
- 高漲期
- 波動期
- 消退期
?
網絡輿情監測系統
三個層
-
數據采集處理層
-
提供網絡數據采集和預處理功能
- 網絡爬蟲(了解)
- PageRank(了解)
-
-
輿情分析處理層
- 主要提供話題檢測、 話題跟蹤、 傾向性分析、 自動摘要以及中文分詞等功能
- 主要完成熱點話題的檢測、 跟蹤以及情感傾向性分析, 并且對各類熱點話題及傾向性進行自動摘要, 分析結果存入數據庫, 以便為用戶提供各種輿情分析服務。
- 輿情分析引擎的核心技術是文本聚類、 文本分類、 情感分析中所采用的模型與算法, 直接關系到系統的性能高低。
-
輿情分析服務層
- 主要提供突發事件分析、 輿情預警報警、 輿情趨勢分析、 輿情統計報告以及輿情查詢檢索等各種輿情分析服務
?
?
?
信息過濾
?
信息過濾通常是在輸入數據流中移除數據, 而不是在輸入數據流中找到數據。
在信息內容安全領域, 信息過濾是提供信息的有效流動, 消除或者減少信息過量、信息混亂、信息濫用造成的危害。
信息過濾模型
過濾模型,各部分
?
?
例子
信息過濾與其他信息處理異同
信息處理方法 | 信息需要/需求 | 信息源 |
---|---|---|
信息過濾 | 穩定的、特定的信息 | 動態的、非結構化的 |
信息檢索 | 動態的、特定的信息 | 穩定的、非結構化的 |
數據訪問 | 動態的、特定的信息 | 穩定的、結構化的 |
信息提取 | 特定的信息 | 非結構化的?? |
信息檢索
信息分類
信息抽取(信息提取)
?
?
信息過濾應用
- Internet搜索結果的過濾
- 用戶電子郵件過濾(垃圾郵件過濾)
- 服務器/新聞組過濾
- 瀏覽器過濾
- 專為孩子的過濾(綠色上網)
- 為客戶的過濾-用戶愛好推薦(APP個性化推薦)
?
信息過濾評價
?
分類體系
?
?
過濾方法
要會計算
-
根據操作方法
-
主動
- 主動搜集信息,并將相關信息發送給用戶
-
被動
- 不負責為用戶搜集信息
-
-
根據操作位置
- 在信息源端過濾
- 在過濾服務器端過濾
- 在客戶端過濾
-
過濾方法
-
基于認知的過濾(Cognitive filtering)
- 基于內容或者用戶興趣的過濾
- 將文檔內容和用戶的Profile進行相似度計算
-
基于社會的過濾(Sociological filtering)
- 也稱為協同過濾(Collaborative filtering)
- 對某個用戶的Profile進行匹配時,通過用戶之間的相似度來計算Profile和文檔的匹配程度
- 社會過濾常常使用用戶建模(User modeling)及用戶聚類(User clustering)等技術。
-
-
根據獲取用戶知識分類
- 顯式
- 隱式
- 顯式和隱式相結合的方法
-
基于匹配的信息過濾:字符串匹配
-
單模式
-
BF(Brute Force, 窮舉/暴力破解法)
-
KMP(由D.E.Knuth、 J.H.Morris和V.R.Pratt設計)
- next數組、 PMT (Partial Match Table) 部分匹配表
- 七分鐘了解什么是 KMP算法_嗶哩嗶哩_bilibili
-
BM(由 Bob Boyer 和 J Strother Moore 設計)
- 從右向左掃描:從右到左取p中字符比較
- 壞字符規則
- 動畫演示什么是BM算法_嗶哩嗶哩_bilibili
-
-
多模式
-
多模式匹配: AC自動機算法
-
基本思想:
-
在預處理階段, AC自動機算法建立了三個函數, 轉向函數goto,失效函數failure 和輸出函數output, 由此構造了一個樹型有限自動機。
先計算深度為1的狀態失效函數, 再計算深度為2的失效函數, 依次類推;
-
在搜索查找階段, 則通過這三個函數的交叉使用掃描文本, 定位出關鍵字在文本中的所有出現位置。
-
-
特點:
- 掃描文本時完全不需要回溯;
- 時間復雜度為O(n), 與關鍵字的數目和長度無關。
-
用最直觀的方式理解AC自動機_嗶哩嗶哩_bilibili
-
-
?
?
對抗攻擊與防御
攻擊的損失函數
約束范式
-
L2-norm
-
L-infinity
?
?
?
FGSM
白盒攻擊 黑盒攻擊
(簡答題,怎樣是 xx 攻擊)
?
攻擊方式舉例
單像素攻擊
差分進化
文本攻擊
語音攻擊
?
防御手段
(簡答:思想,實現)
-
被動
-
特征擠壓 (Feature Squeeze)
將圖像經過原模型、經過Squeezer處理后的結果進行比較,如果結果有差異,
則輸入圖像可能是被攻擊過了。
? 這里的Squeezer可以是整體壓縮每個像素值、圖像局部平滑等操作
-
-
主動
- 增加對抗數據
?
視覺內容偽造與檢測
?
?
偏概念
?
方法
例子 s,知道有那些方法就行
人臉替換的基本原理
?
偽造檢測方法分類
- 手動特征
- 檢測網絡
?
?
身份認證系統的攻擊與防御
身份認證
身份認證概念、流程
保證操作者的物理身份與數字身份相對應
?
物理身份與數字身份一致
基本途徑
- 基于你所知道的(What you know )
- 基于你所擁有的(What you have )– 身份證、信用卡、鑰匙、智能卡、令牌、私鑰等
- 基于你的個人特征(What you are) – 指紋,筆跡,聲音,手型,臉型,視網膜,虹膜
- 雙因素、多因素認證
?
生物特征
生物特征種類比較
- 指紋
- 手形
- 手部血管分布
- 人臉
- 臉部熱量圖
- 虹膜
- 視網膜
- 簽名
- 語音
生物特征的比較
? 指紋:最經典、最成熟的生物認證技術
? 人臉:自然,直觀,無侵害,易用的生物認證技術
? 手掌: 易實現,成本低,識別速度快的生物認證技術
? 虹膜:高獨特,高穩定的生物認證技術
? 視網膜:受保護,防欺騙性好;采集困難
? 簽名:易于接受,常用于信用卡、文件生效等場合
? 聲音:成本低,代價小,常用作輔助手段
?
生物特征認證流程
-
注冊
-
識別
-
匹配
- 驗證 1:1 比對
- 鑒別 1:n 比對
?
?
活體檢測方法
概念、場景
?
異常檢測
概念為主
是否是一類數據,檢測目標
應用
- 信用卡盜刷
- 癌細胞...
與普通二分類區別
?
有標記方法
無標記方法
?
評價方法
目標不同,嚴格程度(假陽性..)
?
線上內容
考
?
?
參考
非常感謝未知名同學的思維導圖,如有侵權請聯系作者。