吳恩達機器學習全課程筆記第五篇

目錄

前言

P80-P85

添加數據

遷移學習

機器學習項目的完整周期

公平、偏見與倫理

P86-P95

傾斜數據集的誤差指標?

決策樹模型

測量純度

選擇拆分方式增益

使用分類特征的一種獨熱編碼

連續的有價值特征

回歸樹

前言

這是吳恩達機器學習筆記的第五篇,第四篇筆記請見:

吳恩達機器學習全課程筆記第四篇

完整的課程鏈接如下:

吳恩達機器學習教程(bilibili)

推薦網站:

scikit-learn中文社區

吳恩達機器學習資料(github)

P80-P85

機器學習的迭代發展:

以“垃圾郵箱分類器”為例,如何減少學習算法中可能出現的錯誤?

添加數據

有一種技術,特別是對于圖像和音頻數據,可以顯著增加訓練集大小,這種技術稱為“數據增強

如圖所示,改變x使之有相同的y,以達到數據增強的效果

除了圖像數據,對于音頻數據,也可以進行數據增強,如下所示:

在數據增強中,如果加入的扭曲(噪聲)不合適,可能不會對增大數據集產生作用

除了使用數據增強去添加數據之外,還可以使用合成數據去添加數據

合成數據是基于計算機模擬或算法生成模仿現實世界觀察的人造數據,簡言之,合成數據是人工制造的模擬數據

以OCR照片為例,現在想要訓練一個模型去提取圖片中的文字:

下面是一個真實的數據:

為這項任務創建人工數據的一種方法是:轉到計算機的文本編輯器,里面有很多不同的字體,使用這些字體在文本編輯器中鍵入隨機文本,截圖它們并使用不同顏色、不同對比度和不同的字體

遷移學習

對于一個沒有那么多數據的應用程序,可以使用遷移學習,它允許使用來自不同任務的數據來幫助你的應用程序

如上圖所示,對于一個數據集很小很小的網絡,建議使用選項一,即僅僅訓練輸出層的參數,否則使用選項二

遷移學習的一個好處是:你可能不需要稱為監督的執行人,許多神經網絡的預訓練已經有研究人員在大圖像上訓練了神經網絡,會在網上發布一個經過訓練的神經網絡,免費授權給任何人下載和使用

遷移學習的總結如下:

機器學習項目的完整周期

確定項目的范圍------->定義和收集數據<---------->訓練模型、誤差診斷、迭代優化------->部署、檢測、維持模型系統

下面展示的是模型部署的一些細節

如圖,開發的移動應用可以通過api進行調用

部署過程需要一定的軟件工程技術,軟件工程需要編寫代碼使得可靠準確的預測、擴大服務范圍、保存數據、系統監控、模型更新

MLOps是一門工程學科,旨在統一 ML 系統開發(dev)和 ML 系統部署(ops),以標準化過程生產高性能模型的持續交付

公平、偏見與倫理

除了偏見之外,公平對待個人,機器學習也有一些負面用例

下面有一些讓你工作更公平的建議,在部署可能造成傷害的系統之前,減少偏見,更道德

P86-P95

傾斜數據集的誤差指標?

如果你正在開發機器學習應用程序,數據集的正面和負面例子非常不平衡,會發現,通常的誤差度量如準確率不會那么有效

比如下面這個罕見疾病檢測的問題,我們的學習算法成功診斷概率是99%,即誤差1%,但如果全世界只有0.5%的人發生這種疾病,即使我寫一個print("y=0")的程序,即永遠告訴病人沒有患病的誤差0.5%都比上面那個1%低。因此單單看準確率去評判學習算法是不夠的

精確率和召回率的定義如下:

提高輸出標簽1的門檻,即像下面一樣把0.5改成0.7再改成0.9會提高準確率、降低召回率

下面展示如何權衡準確率和召回率

取平均值的方法并不是一個好的方法,而使用F1 score權衡可以強調兩個指標中更小的那個

通過F1 score去權衡上述這兩個指標從而選擇學習算法

決策樹模型

許多用來贏得機器學習比賽的應用程序是決策樹和樹的集合

以檢測是否為貓的算法為例:

決策樹是一個預測模型,它代表的是對象屬性與對象值之間的一種映射關系。樹中每個節點表示某個對象,而每個分叉路徑則代表某個可能的屬性值,而每個葉節點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值

給定訓練集構建決策樹的過程有幾個步驟

第一個步驟是:在每個節點上使用什么特征去劃分

第一個步驟是:決定什么什么停止劃分

測量純度

通過熵函數可以測量一組數據的不純度

熵函數真實的表達式如下所示:

選擇拆分方式增益

在構建決策樹時,我們將決定在結點上拆分什么特征,將決定根據什么特征在減少熵,學習熵的減少稱為信息增益

如下圖所示,計算每一種拆分方式的信息增益,就是用原來的熵減去新的熵

總結起來,信息增益的計算方式如下:

決策樹構建過程總結

使用分類特征的一種獨熱編碼

在剛才的例子中,對于耳朵這個特征不是圓的就是尖的,下面使用獨熱編碼解決這個問題

也就是說:如果一個分類特征有k個值,那么就創造k個二進制數字(取值0或1)

?

連續的有價值特征

上面的特征都是離散的,當特征是連續值是會怎么樣呢

比如在上面例子的基礎上加一個體重的特征

選擇不同的閾值,計算信息增益然后決定最終的拆分閾值

回歸樹

到目前為止,我們只把決策樹作為分類算法來討論,使用回歸樹可以將決策樹推廣為回歸算法

比如對于體重的預測,可以通過決策樹進行劃分,最后求得每一種類的平均值

建立回歸樹時,如何選擇一個劃分呢?

在建立回歸樹時,不是去減少熵,相反的,我們應該去減少權重的方差,這是回歸樹的信息增益

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/714786.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/714786.shtml
英文地址,請注明出處:http://en.pswp.cn/news/714786.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

《2023跨境電商投訴大數據報告》發布|亞馬遜 天貓國際 考拉海購 敦煌網 阿里巴巴

2023年&#xff0c;跨境電商API接口天貓國際、京東國際和抖音全球購以其強大的品牌影響力和市場占有率&#xff0c;穩坐行業前三的位置。同時&#xff0c;各大跨境電商平臺消費糾紛問題層出不窮。依據國內知名網絡消費糾紛調解平臺“電訴寶”&#xff08;315.100EC.CN&#xff…

javaEE--后端環境變量配置

目錄 pre 文件準備 最終運行成功結果 后端運行步驟 1.修改setenv文件 2.運行setenv&#xff0c;設置環境變量 3.查看jdk版本 4.修改mysql文件夾下的my文件 前端運行步驟 1.nodejs環境配置 2.查看node和npm版本 3.下載并運行npm 4.注冊登錄 pre 文件準備 最終運行…

VR轉接器:破解虛擬與現實邊界的革命性設備

VR轉接器&#xff0c;這一革命性的設備&#xff0c;為虛擬現實體驗帶來了前所未有的自由度。它巧妙地連接了虛擬與現實&#xff0c;使得用戶在享受VR眼鏡帶來的奇幻世界的同時&#xff0c;也能自由地在現實世界中活動。這一設計的誕生&#xff0c;不僅解決了VR眼鏡續航的瓶頸問…

2、云原生安全之可視化界面rancher的部署

文章目錄 1、rancher的部署1.1、安裝rancher1.2、配置k8s2、部署helm3、容器安全工具neuvector此時已經部署好了k8s,使用rancher來管理 rancher簡化了使用k8s的流程,可以圖形化管理k8s。 參考: https://blog.51cto.com/u_15343792/5000311https://docs.rancher.cn/docs/ra…

你們團隊是否有RocketMQ創建Topic、GID創建規范呢

這里是weihubeats,覺得文章不錯可以關注公眾號小奏技術 背景 早期在使用RocketMQ的時候&#xff0c;系統和開發人員不算多。所以topic的創建會非常隨意&#xff0c;各種千奇百怪的topic 比如: order_topic、ORDER_TOPIC、order-topic 各種奇奇怪怪的風格&#xff0c;用_的&a…

GO結構體

1. 結構體 Go語言可以通過自定義的方式形成新的類型&#xff0c;結構體就是這些類型中的一種復合類型&#xff0c;結構體是由零個或多個任意類型的值聚合成的實體&#xff0c;每個值都可以稱為結構體的成員。 結構體成員也可以稱為“字段”&#xff0c;這些字段有以下特性&am…

JS清空數組方法

清空數組的方法有多種&#xff0c;以下是幾種常見的方式&#xff1a; 1.使用 array.length 屬性將數組的長度設為0&#xff0c;這樣會移除數組中的所有元素&#xff1a; var arr [1, 3, 5]; arr.length 0; console.log(arr); // [] 2. 使用 array.splice() 方法&#xff0c;…

STM32 | 零基礎 STM32 第一天

零基礎 STM32 第一天 一、認知STM32 1、STM32概念 STM32:意法半導體基于ARM公司的Cortex-M內核開發的32位的高性能、低功耗單片機。 ST:意法半導體 M:基于ARM公司的Cortex-M內核的高性能、低功耗單片機 32&#xff1a;32位單片機 2、STM32開發的產品 STM32開發的產品&a…

【論文筆記】Improving Language Understanding by Generative Pre-Training

Improving Language Understanding by Generative Pre-Training 文章目錄 Improving Language Understanding by Generative Pre-TrainingAbstract1 Introduction2 Related WorkSemi-supervised learning for NLPUnsupervised pre-trainingAuxiliary training objectives 3 Fra…

Java 網絡面試題解析

1. Http 協議的狀態碼有哪些&#xff1f;含義是什么&#xff1f;【重點】 200&#xff1a;OK&#xff0c;客戶端請求成功。 301&#xff1a;Moved Permanently&#xff08;永久移除&#xff09;&#xff0c;請求的URL已移走。Response中應該包含一個Location URL&#xff0c;…

steam++加速問題:出現顯示443端口被 vmware-hostd(9860)占用的錯誤。

目錄 前言&#xff1a; 正文&#xff1a; 前言&#xff1a; 使用Steam對GitHub進行加速處理時&#xff0c;建議使用2.8.6版本。 下載地址如下&#xff1a;Release 2.8.6 BeyondDimension/SteamTools GitHub 下載時注意自己的系統位數 正文&#xff1a; 使用GitHub時會使…

NOC2023軟件創意編程(學而思賽道)python初中組初賽真題

軟件創意編程 一、參賽范圍 1.參賽組別:小學低年級組(1-3 年級)、小學高年級組(4-6 年級)、初中組。 2.參賽人數:1 人。 3.指導教師:1 人(可空缺)。 4.每人限參加 1 個賽項。 組別確定:以地方教育行政主管部門(教委、教育廳、教育局) 認定的選手所屬學段為準。 二、…

Mybatis-Plus+SpringBoot多數據源注解方式@DS

前言 最近接到一個新需求需要處理多數據源的問題 &#xff0c;今天就來和大家一起學習一下。 一、使用步驟 1.引入庫 代碼如下&#xff08;示例&#xff09;&#xff1a; <!--配置多數據源--><dependency><groupId>com.baomidou</groupId><artif…

藍橋杯Java B組歷年真題(2013年-2021年)

一、2013年真題 1、世紀末的星期 使用日期類判斷就行&#xff0c;這里使用LocalDate&#xff0c;也可以使用Calendar類 答案 2099 使用LocalDate import java.time.LocalDate; import java.time.format.DateTimeFormatter; // 1:無需package // 2: 類名必須Main, 不可修改p…

常見問題和解決方案

OOM overview 發現監控告警 定位日志java.lang.OutOfMemoryError 避免參數配置代碼規范 example jvm性能調優實戰 -55RPC調用引發的OOM故障-阿里云開發者社區 (aliyun.com) 發現監控告警 定位日志java.lang.OutOfMemoryErrorA rpc BMAT打開堆快照文件分析histogram右擊看引…

CentOS7 Hive2.3.8安裝

CentOS7 Hive2.3.8 安裝 建議從頭用我的博客&#xff0c;如果用外教的文件到 一、9)步驟了&#xff0c;就用他的弄完&#xff0c;數據庫不一樣&#xff0c;在9步驟前還能繼續看我的 一、 安裝MySQL 0.0&#xff09;查詢mariadb,有就去0.1&#xff09;&#xff0c;沒有就不管…

python3裝飾器

裝飾器 它允許你修改函數或類的行為&#xff0c;而不更改其源代碼。實質上&#xff0c;裝飾器是接受另一個函數作為參數并返回一個包裝原始函數的新函數。這樣&#xff0c;你可以在不修改原始函數的情況下&#xff0c;添加一些額外的功能或邏輯。 def time_cost(func):"…

排隊接水問題

時間限制&#xff1a;1秒 內存限制&#xff1a;128M 題目描述 有n個人在一個水龍頭前排隊接水&#xff0c;假如每個人接水的時間為Ti&#xff0c;請編程找出這n個人排隊的一種順序&#xff08;若有多種順序則編號小的在前&#xff09;&#xff0c; 使得n個人的平均時間…

ARCGIS進行視域分析及地形圖制作

問題說明 開發商要在本區域建造觀景亭,希望在觀景亭上能看到優美的景色。根據提供的數據,完成以下要求。 一、 數據說明(見“題目3”文件夾) 1. DEM.tif:研究區域的數據高程模型數據。 2. 觀察點.shp:需要建造觀景亭的位置。

美團分布式 ID 框架 Leaf 介紹和使用

一、Leaf 在當今日益數字化的世界里&#xff0c;軟件系統的開發已經成為了幾乎所有行業的核心。然而&#xff0c;隨著應用程序的規模不斷擴大&#xff0c;以及對性能和可擴展性的需求不斷增加&#xff0c;傳統的軟件架構和設計模式也在不斷地面臨挑戰。其中一個主要挑戰就是如…