填空(18分)18個
1.對數變換對大數值的范圍進行壓縮,對小數值的范圍進行擴展
2.提取出大量高頻率項與低頻率項相關聯的虛假模式,即交叉支持(cross-support)模式
3.信息論中()
4.幾種尺度中定性分析的是定類尺度、定序尺度?定量分析的是定距尺度、定比尺度?
5.包含洞見的分析叫什么?然后包含先見的分析叫什么?包含后見的分析叫什么?
6.奇異值分解包含三個步驟,(旋轉,拉伸,旋轉),2個參數包含多少(4)?
判斷(12分)6個
1.定距尺度里的 0 代表什么都沒有(×)
2.()一定可以推出支持度很低的規則
3.激活函數是是對從神經網絡的原始輸入派生出的新屬性的表示(√)
4.歸納法和演繹法是線性思維方式,素因法是非線性思維方式(√)
5.特征縮放不僅改變單特征分布的形狀,只有數據尺度發生了變化(×)
6.因為特征選擇和特征縮放都是降維操作,所以他們是一樣的
選擇(10分)5個
1.檢查支持度計算
2.貝葉斯估計計算
3.淘寶虛假成交量體現數據的什么特點(大量 快速 多樣 價值密度低)
4.體重屬于定比尺度
5.
簡述(30分)5個
1.數據科學與大數據,數據庫,深度學習的關系
2.數據科學分析中標準差和標準誤差
3.簡述dikw金字塔模型
4.簡述數據脫敏的三個要求
5.舉例子解釋普信森定理
計算(30分)3個
1.求似然比與患癌概率
2.給出恰當的因果關系圖,并解釋為什么給定A,M和B、E相互獨立,即P(M|J,A,B,E)=P(M|A)
3.平滑分布用 20 個點近似,p=30%,畫出分位數點圖