原標題:邏輯回歸分類技術分享,使用Java和Spark區分垃圾郵件
由于最近的工作原因,小鳥很久沒給大家分享技術了。今天小鳥就給大家介紹一種比較火的機器學習算法,邏輯回歸分類算法。
回歸是一種監督式學習的方式,與分類類似,他們的共性都是可以預測變量的歸類。但是他們的區別也是在變量類型,分類通常預測離散型的變量,比如區分騷擾電話和非騷擾電話,而回歸則是區別線性的變量,例如通過身高和飯量預測一個人的體重。下面來看一個使用Java編寫,基于Spark機器學習庫的垃圾郵件分類程序:
首先先構造特征向量和數據集:
此處的spam和ham分別為正常郵件數據和垃圾郵件數據。
接下來使用Spark中自帶的算法庫,對訓練數據進行訓練,形成一個郵件分類模型:
接下來對模型進行測試,構造兩封郵件,內容分別為垃圾郵件和正常郵件。然后利用模型對這兩封郵件進行預測:
預測結果如下所示:
可見預測結果準確,其實機器學習就是一種利用經驗來預測結果的思想。古時候有句老話叫瑞雪兆豐年,其實古人并不知道這其中的科學原理,憑借的就是多年的經驗積累。因此在實際生活中,這種自我學習的方式也能幫助人們做出更多貢獻。
以上就是本次邏輯回歸算法代碼分享了,大家可以多多收藏。最后歡迎關注小鳥,持續獲取更多的前沿技術和技術分享。返回搜狐,查看更多
責任編輯: