NLP數據挖掘基礎知識

Basis(基礎):

  • SSE(Sum of Squared Error, 平方誤差和)
  • SAE(Sum of Absolute Error, 絕對誤差和)
  • SRE(Sum of Relative Error, 相對誤差和)
  • MSE(Mean Squared Error, 均方誤差)
  • RMSE(Root Mean Squared Error, 均方根誤差)
  • RRSE(Root Relative Squared Error, 相對平方根誤差)
  • MAE(Mean Absolute Error, 平均絕對誤差)
  • RAE(Root Absolute Error, 平均絕對誤差平方根)
  • MRSE(Mean Relative Square Error, 相對平均誤差)
  • RRSE(Root Relative Squared Error, 相對平方根誤差)
  • Expectation(期望)&Variance(方差)
  • Standard Deviation(標準差,也稱Root Mean Squared Error, 均方根誤差)
  • CP(Conditional Probability, 條件概率)
  • JP(Joint Probability, 聯合概率)
  • MP(Marginal Probability, 邊緣概率)
  • Bayesian Formula(貝葉斯公式)
  • CC(Correlation Coefficient, 相關系數)
  • Quantile (分位數)
  • Covariance(協方差矩陣)
  • GD(Gradient Descent, 梯度下降)
  • SGD(Stochastic Gradient Descent, 隨機梯度下降)
  • LMS(Least Mean Squared, 最小均方)
  • LSM(Least Square Methods, 最小二乘法)
  • NE(Normal Equation, 正規方程)
  • MLE(Maximum Likelihood Estimation, 極大似然估計)
  • QP(Quadratic Programming, 二次規劃)
  • L1 /L2 Regularization(L1/L2正則, 以及更多的, 現在比較火的L2.5正則等)
  • Eigenvalue(特征值)
  • Eigenvector(特征向量)

Common Distribution(常見分布):

Discrete Distribution(離散型分布):

  • Bernoulli Distribution/Binomial Distribution(貝努利分布/二項分布)
  • Negative Binomial Distribution(負二項分布)
  • Multinomial Distribution(多項分布)
  • Geometric Distribution(幾何分布)
  • Hypergeometric Distribution(超幾何分布)
  • Poisson Distribution (泊松分布)

Continuous Distribution (連續型分布):

  • Uniform Distribution(均勻分布)
  • Normal Distribution/Gaussian Distribution(正態分布/高斯分布)
  • Exponential Distribution(指數分布)
  • Lognormal Distribution(對數正態分布)
  • Gamma Distribution(Gamma分布)
  • Beta Distribution(Beta分布)
  • Dirichlet Distribution(狄利克雷分布)
  • Rayleigh Distribution(瑞利分布)
  • Cauchy Distribution(柯西分布)
  • Weibull Distribution (韋伯分布)

Three Sampling Distribution(三大抽樣分布):

  • Chi-square Distribution(卡方分布)
  • t-distribution(t-分布)
  • F-distribution(F-分布)

Data Pre-processing(數據預處理):

  • Missing Value Imputation(缺失值填充)
  • Discretization(離散化)
  • Mapping(映射)
  • Normalization(歸一化/標準化)

Sampling(采樣):

  • Simple Random Sampling(簡單隨機采樣)
  • Offline Sampling(離線等可能K采樣)
  • Online Sampling(在線等可能K采樣)
  • Ratio-based Sampling(等比例隨機采樣)
  • Acceptance-rejection Sampling(接受-拒絕采樣)
  • Importance Sampling(重要性采樣)
  • MCMC(Markov Chain MonteCarlo 馬爾科夫蒙特卡羅采樣算法:Metropolis-Hasting& Gibbs)

Clustering(聚類):

  • K-MeansK-Mediods
  • 二分K-Means
  • FK-Means
  • Canopy
  • Spectral-KMeans(譜聚類)
  • GMM-EM(混合高斯模型-期望最大化算法解決)
  • K-Pototypes
  • CLARANS(基于劃分)
  • BIRCH(基于層次)
  • CURE(基于層次)
  • STING(基于網格)
  • CLIQUE(基于密度和基于網格)
  • 2014年Science上的密度聚類算法等

Clustering Effectiveness Evaluation(聚類效果評估):

  • Purity(純度)
  • RI(Rand Index, 芮氏指標)
  • ARI(Adjusted Rand Index, 調整的芮氏指標)
  • NMI(Normalized Mutual Information, 規范化互信息)
  • F-meaure(F測量)

Classification&Regression(分類&回歸):

  • LR(Linear Regression, 線性回歸)
  • LR(Logistic Regression, 邏輯回歸)
  • SR(Softmax Regression, 多分類邏輯回歸)
  • GLM(Generalized Linear Model, 廣義線性模型)
  • RR(Ridge Regression, 嶺回歸/L2正則最小二乘回歸),LASSO(Least Absolute Shrinkage and Selectionator Operator , L1正則最小二乘回歸)
  • DT(Decision Tree決策樹)
  • RF(Random Forest, 隨機森林)
  • GBDT(Gradient Boosting Decision Tree, 梯度下降決策樹)
  • CART(Classification And Regression Tree 分類回歸樹)
  • KNN(K-Nearest Neighbor, K近鄰)
  • SVM(Support Vector Machine, 支持向量機, 包括SVC(分類)&SVR(回歸))
  • CBA(Classification based on Association Rule, 基于關聯規則的分類)
  • KF(Kernel Function, 核函數)?

    • Polynomial Kernel Function(多項式核函數)
    • Guassian Kernel Function(高斯核函數)
    • Radial Basis Function(RBF徑向基函數)
    • String Kernel Function 字符串核函數
  • NB(Naive Bayesian,樸素貝葉斯)
  • BN(Bayesian Network/Bayesian Belief Network/Belief Network 貝葉斯網絡/貝葉斯信度網絡/信念網絡)
  • LDA(Linear Discriminant Analysis/Fisher Linear Discriminant 線性判別分析/Fisher線性判別)
  • EL(Ensemble Learning, 集成學習)?

    • Boosting
    • Bagging
    • Stacking
    • AdaBoost(Adaptive Boosting 自適應增強)
  • MEM(Maximum Entropy Model, 最大熵模型)

Classification EffectivenessEvaluation(分類效果評估):

  • Confusion Matrix(混淆矩陣)
  • Precision(精確度)
  • Recall(召回率)
  • Accuracy(準確率)
  • F-score(F得分)
  • ROC Curve(ROC曲線)
  • AUC(AUC面積)
  • Lift Curve(Lift曲線)
  • KS Curve(KS曲線)

PGM(Probabilistic Graphical Models, 概率圖模型):

  • BN(BayesianNetwork/Bayesian Belief Network/ Belief Network , 貝葉斯網絡/貝葉斯信度網絡/信念網絡)
  • MC(Markov Chain, 馬爾科夫鏈)
  • MEM(Maximum Entropy Model, 最大熵模型)
  • HMM(Hidden Markov Model, 馬爾科夫模型)
  • MEMM(Maximum Entropy Markov Model, 最大熵馬爾科夫模型)
  • CRF(Conditional Random Field,條件隨機場)
  • MRF(Markov Random Field, 馬爾科夫隨機場)
  • Viterbi(維特比算法)

NN(Neural Network, 神經網絡)

  • ANN(Artificial Neural Network, 人工神經網絡)
  • SNN(Static Neural Network, 靜態神經網絡)
  • BP(Error Back Propagation, 誤差反向傳播)
  • HN(Hopfield Network)
  • DNN(Dynamic Neural Network, 動態神經網絡)
  • RNN(Recurrent Neural Network, 循環神經網絡)
  • SRN(Simple Recurrent Network, 簡單的循環神經網絡)
  • ESN(Echo State Network, 回聲狀態網絡)
  • LSTM(Long Short Term Memory, 長短記憶神經網絡)
  • CW-RNN(Clockwork-Recurrent Neural Network, 時鐘驅動循環神經網絡, 2014ICML)等.

Deep Learning(深度學習):

  • Auto-encoder(自動編碼器)
  • SAE(Stacked Auto-encoders堆疊自動編碼器)?

    • Sparse Auto-encoders(稀疏自動編碼器)
    • Denoising Auto-encoders(去噪自動編碼器)
    • Contractive Auto-encoders(收縮自動編碼器)
  • RBM(Restricted Boltzmann Machine, 受限玻爾茲曼機)
  • DBN(Deep Belief Network, 深度信念網絡)
  • CNN(Convolutional Neural Network, 卷積神經網絡)
  • Word2Vec(詞向量學習模型)

Dimensionality Reduction(降維):

  • LDA(Linear Discriminant Analysis/Fisher Linear Discriminant, 線性判別分析/Fish線性判別)
  • PCA(Principal Component Analysis, 主成分分析)
  • ICA(Independent Component Analysis, 獨立成分分析)
  • SVD(Singular Value Decomposition 奇異值分解)
  • FA(Factor Analysis 因子分析法)

Text Mining(文本挖掘):

  • VSM(Vector Space Model, 向量空間模型)
  • Word2Vec(詞向量學習模型)
  • TF(Term Frequency, 詞頻)
  • TF-IDF(TermFrequency-Inverse Document Frequency, 詞頻-逆向文檔頻率)
  • MI(Mutual Information, 互信息)
  • ECE(Expected Cross Entropy, 期望交叉熵)
  • QEMI(二次信息熵)
  • IG(Information Gain, 信息增益)
  • IGR(Information Gain Ratio, 信息增益率)
  • Gini(基尼系數)
  • x2 Statistic(x2統計量)
  • TEW(Text Evidence Weight, 文本證據權)
  • OR(Odds Ratio, 優勢率)
  • N-Gram Model
  • LSA(Latent Semantic Analysis, 潛在語義分析)
  • PLSA(Probabilistic Latent Semantic Analysis, 基于概率的潛在語義分析)
  • LDA(Latent Dirichlet Allocation, 潛在狄利克雷模型)
  • SLM(Statistical Language Model, 統計語言模型)
  • NPLM(Neural Probabilistic Language Model, 神經概率語言模型)
  • CBOW(Continuous Bag of Words Model, 連續詞袋模型)
  • Skip-gram(Skip-gram Model)

Association Mining(關聯挖掘):

  • Apriori算法
  • FP-growth(Frequency Pattern Tree Growth, 頻繁模式樹生長算法)
  • MSApriori(Multi Support-based Apriori, 基于多支持度的Apriori算法)
  • GSpan(Graph-based Substructure Pattern Mining, 頻繁子圖挖掘)

Sequential Patterns Analysis(序列模式分析)

  • AprioriAll
  • Spade
  • GSP(Generalized Sequential Patterns, 廣義序列模式)
  • PrefixSpan

Forecast(預測)

  • LR(Linear Regression, 線性回歸)
  • SVR(Support Vector Regression, 支持向量機回歸)
  • ARIMA(Autoregressive Integrated Moving Average Model, 自回歸積分滑動平均模型)
  • GM(Gray Model, 灰色模型)
  • BPNN(BP Neural Network, 反向傳播神經網絡)
  • SRN(Simple Recurrent Network, 簡單循環神經網絡)
  • LSTM(Long Short Term Memory, 長短記憶神經網絡)
  • CW-RNN(Clockwork Recurrent Neural Network, 時鐘驅動循環神經網絡)
  • ……

Linked Analysis(鏈接分析)

  • HITS(Hyperlink-Induced Topic Search, 基于超鏈接的主題檢索算法)
  • PageRank(網頁排名)

Recommendation Engine(推薦引擎):

  • SVD
  • Slope One
  • DBR(Demographic-based Recommendation, 基于人口統計學的推薦)
  • CBR(Context-based Recommendation, 基于內容的推薦)
  • CF(Collaborative Filtering, 協同過濾)
  • UCF(User-based Collaborative Filtering Recommendation, 基于用戶的協同過濾推薦)
  • ICF(Item-based Collaborative Filtering Recommendation, 基于項目的協同過濾推薦)

Similarity Measure&Distance Measure(相似性與距離度量):

  • EuclideanDistance(歐式距離)
  • Chebyshev Distance(切比雪夫距離)
  • Minkowski Distance(閔可夫斯基距離)
  • Standardized EuclideanDistance(標準化歐氏距離)
  • Mahalanobis Distance(馬氏距離)
  • Cos(Cosine, 余弦)
  • Hamming Distance/Edit Distance(漢明距離/編輯距離)
  • Jaccard Distance(杰卡德距離)
  • Correlation Coefficient Distance(相關系數距離)
  • Information Entropy(信息熵)
  • KL(Kullback-Leibler Divergence, KL散度/Relative Entropy, 相對熵)

Optimization(最優化):

Non-constrained Optimization(無約束優化):

  • Cyclic Variable Methods(變量輪換法)
  • Variable Simplex Methods(可變單純形法)
  • Newton Methods(牛頓法)
  • Quasi-Newton Methods(擬牛頓法)
  • Conjugate Gradient Methods(共軛梯度法)。

Constrained Optimization(有約束優化):

  • Approximation Programming Methods(近似規劃法)
  • Penalty Function Methods(罰函數法)
  • Multiplier Methods(乘子法)。
  • Heuristic Algorithm(啟發式算法)
  • SA(Simulated Annealing, 模擬退火算法)
  • GA(Genetic Algorithm, 遺傳算法)
  • ACO(Ant Colony Optimization, 蟻群算法)

Feature Selection(特征選擇):

  • Mutual Information(互信息)
  • Document Frequence(文檔頻率)
  • Information Gain(信息增益)
  • Chi-squared Test(卡方檢驗)
  • Gini(基尼系數)

Outlier Detection(異常點檢測):

  • Statistic-based(基于統計)
  • Density-based(基于密度)
  • Clustering-based(基于聚類)。

Learning to Rank(基于學習的排序):

  • Pointwise?

    • McRank
  • Pairwise?

    • RankingSVM
    • RankNet
    • Frank
    • RankBoost;
  • Listwise?

    • AdaRank
    • SoftRank
    • LamdaMART

Tool(工具):

    • MPI
    • Hadoop生態圈
    • Spark
    • IGraph
    • BSP
    • Weka
    • Mahout
    • Scikit-learn
    • PyBrain
    • Theano?

轉載于:https://www.cnblogs.com/baiboy/p/dm1.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/254176.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/254176.shtml
英文地址,請注明出處:http://en.pswp.cn/news/254176.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SQL Fundamentals || Oracle SQL語言

對于SQL語言,有兩個組成部分: DML(data manipulation language) 它們是SELECT、UPDATE、INSERT、DELETE,就象它的名字一樣,這4條命令是用來對數據庫里的數據進行操作的語言。 DDL(data defini…

圓形卡尺測量后創建模板

read_image (Image, QQ圖片20201113111404.jpg) dev_close_window () dev_open_window_fit_image (Image, 0, 0, -1, -1, WindowHandle) dev_display (Image) rgb1_to_gray (Image,Image) ****創建模板階段 *大致找內圓 fast_threshold (Image, Region, 128, 255, 20) connecti…

fread函數和fwrite函數,read,write

fread函數和fwrite函數 1.函數功能 用來讀寫一個數據塊。 2.一般調用形式 fread(buffer,size,count,fp); fwrite(buffer,size,count,fp); 3.說明 (1)buffer:是一個指針,對fread來說,它是讀入數據的存放地址。對fwrit…

微信小程序 CSS filter(濾鏡)的使用示例

前言 之前在看七月老師的視頻的時候,看到了有一個樣式是-webkit-filter,不知道是什么(我沒咋學過CSS,嘿嘿,所以不知道是啥),于是查了一下,原來是濾鏡吖。但是在微信小程序里使用的時…

vmware ubuntu重置root密碼

1.重啟ubuntu,按住shift(開機啟動時) 2.選擇recovery mode,enter 3.root選擇root drop to root shell prompt 4.進入shell界面設置密碼 (1)mount -rw -o remount / (2)passwd username(設置root用戶的密碼) 完成以上修改后,重啟就…

halcon使用直線標定板,標定相機內參代碼

read_image (Image, 直線標定板圖片/Left201118140641772.bmp) get_image_size (Image, Width, Height) dev_close_window () dev_open_window_fit_image (Image, 0, 0, -1, -1, WindowHandle) dev_display (Image) * Image Acquisition 01: Code generated by Image Acquisiti…

dyld: Library not loaded: @rpath/libswiftCore.dylib 解決方法

解決: 設置Build Setting - > 搜索 embe關鍵字 -> 修改屬性 見如下圖: 如果更新了Xcode 8 這里變成: 轉載于:https://www.cnblogs.com/yajunLi/p/5979621.html

Bootloader及u-boot簡介/u-boot系統啟動流程

Bootloader及u-boot簡介Bootloader代碼是芯片復位后進入操作系統之前執行的一段代碼,主要用于完成由硬件啟動到操作系統啟動的過渡,從而為操作系統提供基本的運行環境,如初始化CPU、堆棧、存儲器系統等。Bootloader 代碼與CPU 芯片的內核結構…

Dubbo之RPC架構

為什么會有dubbo的出現: 隨著互聯網的發展,網站應用的規模不斷擴大,常規的垂直應用架構已無法應對,分布式服務架構以及流動計算架構勢在必行,亟需一個治理系統確保架構有條不紊的演進。 單一應用架構 當網站流量很小時&#xff0c…

區域路由的注冊機制

AreaRegistration.RegisterAllAreas() 我們新建一個名稱為Admin的Area,VS生成下面的代碼。 { action , id 我們先來看AreaRegistration這個抽象類,實際上,它只有一個核心功能,就是RegisterAllAreas,獲取所有繼承它的…

Unix/Linux IPC及線程間通信總結

一、互斥與同步 1.互斥:是指某一資源同時只允許一個訪問者對其進行訪問,具有唯一性和排它性。但互斥無法限制訪問者對資源的訪問順序,即訪問是無序的。 2.同步:是指在互斥的基礎上(大多數情況)&#xff0…

CSS樣式的插入方式

1.外部樣式&#xff1a; 當樣式需要應用于很多頁面時&#xff0c;外部樣式表將是理想的選擇。<head><link rel"stylesheet" type"text/css" href"mystyle.css" /> </head> 2.內部樣式 當單個文檔需要特殊的樣式時&#…

嵌入式Linux系統基礎知識

一、嵌入式Linux系統的構成 1、硬件 2、內核 3、應用程序&#xff08;形成根文件系統&#xff09; 二、構建嵌入式Linux系統的主要任務 1、內核部分 2、應用程序部分 嵌入式Linux的開發大致可分為三個層次&#xff1a;引導裝載內核、構造文件系統和圖形用戶界面。作為操作系統…

win10系統javac不是內部或外部命令,也不是可運行的程序 或批處理文件。

按照下面的步驟設置環境變量 說明&#xff1a; 1. 如果編輯的是系統環境變量&#xff0c;命令提示符需要以管理員權限運行&#xff1b;如果在用戶環境變量中編輯&#xff0c;則當前用可直接運行命令提示符。 2. win10中的路徑相對于win7要設置成絕對路徑。 1&#xff0e;打開…

兩個bat文件

1、修改后綴名 ren *.cs *.txt ren *.txt *.zip2、修改文件名稱 echo offset a00setlocal EnableDelayedExpansionfor %%n in (*.txt) do (set /A a1ren "%%n" "!a!.txt")

各種排序筆記---基于比較排序部分

1. 選擇排序 selection sort 大循環 從左到右每次以一個點開始掃描array 小循環 找到從當前起始點開始的最小值 時間復雜度為O(N^2) //selection sort an array array[] public class Solution {public int[] solve(int[] array) {if (array null || array.length 0) {return…

是什么讓深度學習再次崛起并超越人類?

作者潘爭&#xff0c;格靈深瞳計算機視覺工程師&#xff0c;清華大學自動化系博士&#xff0c;師從智能技術與系統國家重點實驗室副主任張長水。深度學習(Deep Learning)這個詞最近借著AlphaGO與李世石的人機大戰又火了一把。深度學習其實是機器學習(Machine Learning)的一個分…

常見的流量問題

常見的流量問題 冗余內容同類請求被間隔執行&#xff0c;請求的內容包含一些相對靜態的信息&#xff0c;正確的處理是第一次請求包括靜態信息就好&#xff0c;后面的同類請求只包含必要的即時變化信息即可。錯誤的處理方式是每次請求服務器都返回一次靜態信息。 冗余請求有的時…

halcon使用點擬合圓形時候,點集順序紊亂,不影響圓形擬合效果

read_image (Image, 截圖20201226094342972.bmp) * Matching 01: BEGIN of generated code for model initialization set_system (border_shape_models, false) * Matching 01: Obtain the model image * Matching 01: The image is assumed to be made available in the * Ma…

Socket理解。

其他大部分系統&#xff0c;例如CRM/CMS/權限框架/MIS之類的&#xff0c;無論怎么復雜&#xff0c;基本上都能夠本地代碼本地調試&#xff0c;性能也不太重要。&#xff08;也許這個就是.net的企業級開發的戰略吧&#xff09; 可是來到通訊系統&#xff0c;一切變得困難復雜。原…