目錄
一、前言
二、完成情況
2.1 吳恩達機器學習系列課程
2.1.1?分類問題
2.1.2 假說表示
2.1.3 判定邊界
2.2 學習數學表達式
2.3 論文寫作情況
2.3.1 題目選取
2.3.2 摘要
2.3.3 關鍵詞
2.3.4 引言部分
2.3.4 文獻綜述部分
三、下周計劃
3.1 存在的問題
3.2 計劃
一、前言
? ? ? ? 在上周,學習吳恩達機器學習的系列視頻以及思考論文的標題和內容。
? ? ? ? 本周,按照上周的計劃繼續執行,主要完成了論文理論部分的介紹。由于電腦無法完成實驗,所以這一部分沒有寫。
二、完成情況
2.1 吳恩達機器學習系列課程
2.1.1?分類問題
? ? ? ? 在分類問題中,需要預測的變量??是離散的值。因此,先介紹一種一種叫做邏輯回歸(Logistic Regression)的算法。
? ? ? ??在分類問題中,嘗試預測的是結果是否屬于某一個類(例如正確或錯誤)。分類問題的例子有:判斷一封電子郵件是否是垃圾郵件;判斷一次金融交易是否是欺詐;區別一個腫瘤是惡性的還是良性的等。
? ? ? ??將因變量(dependent variable)可能屬于的兩個類分別稱為負向類(negative class)和正向類(positive class),則因變量 ,其中 0 表示負向類,1 表示正向類。
? ? ? ? ?如果用線性回歸算法來解決一個分類問題,對于分類,?取值為 0 或者 1,但如果使用的是線性回歸,那么假設函數的輸出值可能遠大于 1,或者遠小于 0,即使所有訓練樣本的標簽
?都等于 0 或 1。盡管標簽取值 0 或者 1,但是如果算法得到的值遠大于 1 或者遠小于 0 的話,就會感覺很奇怪。
? ? ? ? 所以,接下來的要研究的算法就叫做邏輯回歸算法,該算法的性質是:它的輸出值永遠在 0 到 1 之間。
2.1.2 假說表示
? ? ? ??根據線性回歸模型只能預測連續的值,然而對于分類問題,需要輸出 0 或 1, 則可以預測:
- 當?
時,預測
;
- 當?
時,預測
;
? ? ? ??對于上圖所示的數據,這樣的一個線性模型能很好地完成分類任務。假使又觀測到一個非常大尺寸的惡性腫瘤,將其作為實例加入到訓練集中來,這將獲得一條新的直線。
? ? ? ??此時,再使用 0.5 作為閥值來預測腫瘤是良性還是惡性就不合適了。
? ? ? ? 因此引入一個新的模型:邏輯回歸。該模型將輸出變量的范圍控制在 0 和 1 之間。
? ? ? ? 邏輯回歸模型的假設是:
。
? ? ? ? 其中,
?代表特征向量,
?代表邏輯函數(logistic function)。一個常用的邏輯函數為?
?形函數(Sigmoid function),也是現在的激活函數,公式為:
。
? ? ? ??
?的作用是,對于給定的輸入變量,根據選擇的參數計算輸出變量等于 1 的可能性 (estimated probablity)即
?。
? ? ? ? 例如,如果對于給定的?
,通過已經確定的參數計算得出
,則表示有 70%的 幾率
?為正向類,相應地?
為負向類的幾率為
。
2.1.3 判定邊界
? ? ? ? 在邏輯回歸中,預測:當? 時,?
;當?
時,?
。
? ? ? ? 根據上面繪制的??形函數圖像,當?
時,
;
?時,
;
?時,
。
? ? ? ? 因為:,則:
?時,預測
;
?時,預測 y=0。
? ? ? ? 假設有一個模型如下圖所示:
? ? ? ? ?參數? 是向量[-3 1 1]。 則當
,即
?時,模型將預測
。 我們可以繪制直線
,這條線便是該模型的分界線,將預測為 1 的區域和預測為 0 的區域分隔開。
? ? ? ? 上述模型需要用曲線才能分隔 ? 的區域和?
的區域。這里需要二次方特征:
,則得到的判定邊界恰好是圓點在原點且半徑為 1 的圓形。
2.2 學習數學表達式
? ? ? ? 見鏈接:學習記錄之數學表達式(6)-CSDN博客
2.3 論文寫作情況
? ? ? ? 在撰寫論文的過程中,我遇到了以下幾個突出的問題:
- 如何給論文取一個合適的題目?
- 摘要字數大概多少合適,具體按照什么格式書寫呢?
- “介紹”部分會引用一部分參考文獻,但是這部分參考文獻可能在“相關工作”這一章節出現,如何區別描述?
- 公式中的符號系統需要與其他論文中的區分嗎?
- 一些語句的表達如何更加規范?
? ? ? ? 因此,我帶著疑問學習了閔老師的系列論文寫作貼子,鏈接如下:http://t.csdnimg.cn/I4DCc。
2.3.1 題目選取
? ? ? ? 題目的選取是第一個讓我頭疼的事情。
- 長度最好控制在 40-60 個字母之間,限定不能太多;
- 需要有吸引力;
- 需要易于理解與檢索:使用本領域常用的術語或詞匯;
- 盡量不使用 based on:會讓讀者認為這是簡單方法的擴展,無創新點;
- 使用 through、with等來表示技術;
- 若主要貢獻為算法,可以使用題目的縮寫作為算法的名稱;
2.3.2 摘要
? ? ? ? Abstract通常包括三部分:已有工作的描述、本文工作、實驗結果。因此,可以將摘要分為10句進行描述:
- 描述問題所屬的領域,解釋最重要的概念或者強調問題的重要性;
- 描述目前該問題的流行解決方案;
- 以However開頭,描述已有工作存在的問題,但是指責不能太強烈,需要尊重別人的勞動成果。這句話也可以省略;
- 以In this paper開頭,介紹本文工作,出現算法的縮寫,可以超過 20 個單詞(這里我有點疑惑:意思是其余部分的單詞需要控制在 20 個以內嗎?);
- 本文方法的第一個技術、步驟、方面、優勢、貢獻;
- 本文方法的第二個技術、步驟、方面、優勢、貢獻;
- 本文方法的第三個技術、步驟、方面、優勢、貢獻;(如果不能介紹三方面,會顯得工作量不夠;)
- 描述實驗設置,如數據來源等;
- 描述實驗結果;
- 描述論文意義;
2.3.3 關鍵詞
? ? ? ? 關鍵詞常被看做摘要的一種補充:
- 通常需要 3-5 個關鍵詞;
- 一個關鍵詞通常由 1-3 個單詞構成;
- 關鍵詞按照字母表排序;
2.3.4 引言部分
? ? ? ? 引言是對本論文所做的一些鋪墊,主要有以下幾個注意事項:
- 引言可以采用與與摘要保持相同節奏的方式:即將摘要的每一句都擴展為引言中的一段,每段的首句被稱為“主題句”;
- 每一段應該有 5-10 句,單詞在 50-150 內。若相鄰兩段較短,可以進行合并;若一段太長,應該進行拆分或刪減;
- 在引言的最后一段以?The rest of the paper is organized as follows. 開頭,描述論文的組織結構;
- 引言的表達需要簡單得體;
2.3.4 文獻綜述部分
- 絕大數的參考文獻應該在文獻綜述中引用;
- 每篇論文都應該有文獻綜述,表示對前人工作的尊重;
- 引言中的描述不能與第二節的描述重復;
- 描述文獻時需要分門別類的介紹;
- 文獻的引用可以在一句完整的句子后引用;
- 不要一次性引用太多文獻(不超過3 篇);
三、下周計劃
3.1 存在的問題
- 在寫論文過程中,產生了一些疑惑,還有以下問題未得到解決:①一些共性的東西,如何用不同的語言或形式表現?如評價指標等;②\hat 和 \widetilde 有什么區別?
- 論文中英語單詞大部分都不能超過20個單詞嗎?
- 理論部分符號如何保持風格統一?
- 語言表達干巴巴的,格式不規范,題目命名無吸引力等,需要繼續學習閔老師的論文寫作系列貼子;
- 工作站未空閑,想法沒有得到驗證,所以實驗這一部分還沒有完成寫作;
3.2 計劃
- 整理過去一段時間閱讀的論文的主要創新點,詳細描述實驗設計和方法,包括使用的數據集和評價指標;
- 按照摘要、實驗等總結一些合適的句型;
- 在工作站空閑時完成實驗,將結果寫入論文中;
- 繼續學習吳恩達機器學習的系列視頻;