【機器學習】041_模型開發迭代過程

一、模型開發的一般步驟

1.?明確研究問題

確定問題的組成和結果,明晰問題是分類問題還是回歸問題

2. 決定系統總體架構

①理解數據:采集(爬取)數據,生成(導入)數據,進行數據清洗操作,包括數據預處理:缺失值處理、重復值處理、轉換數據類型、規整字符串、進行數據歸一化/標準化等。

②特征工程:對所采集的數據根據問題分析所采取的特征、確定所需的特征值,計算各個特征和標簽的相關性,查看標簽對應的相關系數,并根據相關系數的大小選擇特征列作為模型輸入。

③建立數據集:選取訓練數據和測試數據的特征和標簽,劃分好訓練數據集與測試數據集。

④構建神經網絡:根據問題和輸入設計好神經網絡架構。

⑤選擇算法:選擇合適的機器學習算法,導入算法或自寫算法。

⑥選擇超參數:選擇、初始化好計算過程里相應的超參數。

⑦訓練模型:構建好模型,開始訓練。

3.?模型評估

①對模型的預測結果進行相應的精度評估。

②對模型的精度、誤差等進行相應的優化,采取對應的優化方案,例如擴大神經網絡、進行正則化等等,不斷循環進行,使模型的精度更高,預測結果更好。

文本分類實例:

·?構建分類器來識別垃圾郵件和非垃圾郵件

思路:

· 訓練一個監督學習算法,輸入特征x為電子郵件的相關特征,輸出標簽y為1或0,表示電子郵件是否是垃圾郵件。

·?取英語或其它詞典中排名前10,000的單詞(字詞),并使用它們來定義特征x_1,x_2...x_10,000。

例如,對于右邊的電子郵件,取單詞表設置各單詞的特征為0或1或其出現的具體次數。

給定這個單詞表各單詞出現頻率或次數的特征值,可以訓練分類算法在給定x的情況下預測y值。

·?獲取數據方式例子:創建大量虛假電子郵件地址,故意交到垃圾郵件發送者手中,以期獲得大量垃圾郵件數據。或者基于電子郵件路由開發更復雜的數據獲取方式。

·?在檢測特征值、提取特征單詞表的過程中,從電子郵件正文里可提出更復雜的功能。

不同的檢測算法、不同的特征值提取方式、不同的數據獲取方式都可能導致最終結果和模型效果的不同。

二、開發過程中的模型診斷

錯誤分析:

假設有500條交叉驗證實例,模型算法錯誤分類了500個實例的100個;

※需手動查看這100個錯誤實例,并深入了解算法出錯的地方及可能原因。

·?從交叉驗證集中找到一組算法錯誤分類的實例,并嘗試把它們分組為共同的主題、共同的屬性或共同的特征——找清楚導致分類錯誤所可能的原因。

·?例如,很多被錯誤分類的垃圾郵件是藥品銷售類別,那么實際上通過這些示例并手動計算此分類中有多少垃圾郵件是藥品垃圾郵件,并估計藥品垃圾郵件分類錯誤的原因;如果分類錯誤可能是由于拼寫錯誤,那么也會檢查計算錯誤分類的示例有多少個是拼寫錯誤引起的。

·?如果錯誤分類的數據不僅僅有100個而是更大(例如10,000個),那么通常會抽取大約一定數目的子集,在這些子集上進行查看以確定錯誤分類數據的情況。

·?如果經過此分析,發現很多錯誤集中于某一類的示例,那么可能下一步的工作就是收集更多該類型的示例訓練數據,或者潤色與該類相關的特征值、添加新功能,或者修改優化對該類數據的分析算法。

通過學習曲線反映的偏差方差分析能夠反映出模型的一些錯誤,以提供一些“開發更大神經網絡”或“收集更多數據”的工作線索。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/212809.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/212809.shtml
英文地址,請注明出處:http://en.pswp.cn/news/212809.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

代碼隨想錄二刷 |二叉樹 |101. 對稱二叉樹

代碼隨想錄二刷 |二叉樹 |101. 對稱二叉樹 題目描述解題思路 & 代碼實現遞歸法迭代法使用隊列使用棧 題目描述 101.對稱二叉樹 給你一個二叉樹的根節點 root , 檢查它是否軸對稱。 示例 1: 輸入:root [1,2,2,…

zcms企業官網建站系統源碼搭建-支持頁面自定義

1.支持mysql,sqlite,access三種數據庫。 2.模板和標簽與asp版的zzzcms通用。 3.asp版的zzzcms的access數據庫可直接使用。 4.支持手機站。 (增刪改查不做描述): 網站信息 名稱,logo,微信&…

基于OpenCV的流水線包裝箱檢測計數應用(附源碼)

導 讀 本文主要介紹基于OpenCV的流水線包裝箱檢測計數應用,并給出源碼。 資源下載 完整代碼和視頻下載地址: https://github.com/freedomwebtech/rpi4-conveyor-belt-boxces-counter 核心代碼如下(cboxtest.py): import cv2import numpy as npfrom tracker import*cap=c…

【MYSQL】單表查詢

查詢語法: select 字段(*表示全字段) from 數據表 【where 條件表達式】 【group by 分組字段【having 分組條件表達式】】 【order by 排序字段【asc | desc】】 例子: 教職工表Teacher(Tno, TName, age, sal, mgr, DNo)&#…

C# 圖解教程 第5版 —— 第17章 轉換

文章目錄 17.1 什么是轉換17.2 隱式轉換17.3 顯示轉換和強制轉換17.4 轉換的類型17.5 數字的轉換17.5.1 隱式數字轉換17.5.2 溢出檢測上下文17.5.3 顯示數字轉換 17.6 引用轉換17.6.1 隱式引用轉換17.6.2 顯式引用轉換17.6.3 有效顯式引用轉換 17.7 裝箱轉換17.7.1 裝箱是創建副…

前端發起更改數據請求后再獲取后端數據發現數據并未更改的一個解決辦法

前端發起更改數據請求后再獲取后端數據發現數據并未更改的一個解決辦法 問題再現 async function refuseRefund(id,type){if(confirm(確定拒絕?)){await fetch(http://127.0.0.1:3000/api/refuseRefund, {method: POST,headers: {Content-type: application/json}…

vue項目搭建---1.搭建基礎的框架

目錄 1. pnpm下載1.1 安裝1.2 差異1.3 鏡像源設置 2. 項目2.1 vite創建項目2.2 項目配置2.3 piniavue-routermain.jsstore/index.jsrouter/index.jsvue文件里使用示例 2.4 eslint prettier.eslintrc.js.eslintignore.prettierrc 2.5 樣式2.6 commitizenpackage.json.cz-config…

MySQL - 聚簇索引和非聚簇索引,回表查詢,索引覆蓋,索引下推,最左匹配原則

聚簇索引和非聚簇索引 聚簇索引和非聚簇索引是 InnoDB 里面的叫法 一張表它一定有聚簇索引,一張表只有一個聚簇索引在物理上也是連續存儲的 它產生的過程如下: 表中有無有主鍵索引,如果有,則使用主鍵索引作為聚簇索引;…

【Scala】Scala中的一些基本數據類型的特性 列表、元組、構造器、單例對象、伴生類、伴生對象、抽象類與特質

列表 使用List(“”,“”,“”)去聲明 sliding 和 groued表示迭代器 val iter List("Hadoop", "Spark", "Scala") sliding 2// sliding 和 groued 是有區別的while (iter.hasNext){println(iter.next())}for (elem <- iter){println(elem)}…

極速學習SSM之SpringMVC筆記

文章目錄 一、SpringMVC簡介1、什么是MVC2、什么是SpringMVC3、SpringMVC的特點 二、HelloWorld1、開發環境2、創建maven工程a>添加web模塊b>打包方式&#xff1a;warc>引入依賴 3、配置web.xmla>默認配置方式b>擴展配置方式 4、創建請求控制器5、創建springMVC…

Kafka 最佳實踐:構建可靠、高性能的分布式消息系統

Apache Kafka 是一個強大的分布式消息系統&#xff0c;被廣泛應用于實時數據流處理和事件驅動架構。為了充分發揮 Kafka 的優勢&#xff0c;需要遵循一些最佳實踐&#xff0c;確保系統在高負載下穩定運行&#xff0c;數據可靠傳遞。本文將深入探討 Kafka 的一些最佳實踐&#x…

四. 基于環視Camera的BEV感知算法-環視背景介紹

目錄 前言0. 簡述1. 環視背景介紹2. 環視思路3. 主流基于環視Camera的算法詳解總結下載鏈接參考 前言 自動駕駛之心推出的《國內首個BVE感知全棧系列學習教程》&#xff0c;鏈接。記錄下個人學習筆記&#xff0c;僅供自己參考 本次課程我們來學習下課程第四章——基于環視Camer…

基于Spring+Spring boot的SpringBoot在線電子商城管理系統

SSM畢設分享 基于SpringSpring boot的SpringBoot在線電子商城管理系統 1 項目簡介 Hi&#xff0c;各位同學好&#xff0c;這里是鄭師兄&#xff01; 今天向大家分享一個畢業設計項目作品【基于SpringSpring boot的SpringBoot在線電子商城管理系統】 師兄根據實現的難度和等級…

高云GW1NSR-4C開發板M3硬核應用

1.M3硬核IP下載&#xff1a;Embedded M3 Hard Core in GW1NS-4C - 科技 - 廣東高云半導體科技股份有限公司 (gowinsemi.com.cn) 特別說明&#xff1a;IDE必須是1.9.9及以后版本&#xff0c;1.9.8會導致編譯失敗&#xff08;1.9.8下1.1.3版本IP核可用&#xff09; 以下根據官方…

SQLMap介紹

預計更新SQL注入概述 1.1 SQL注入攻擊概述 1.2 SQL注入漏洞分類 1.3 SQL注入攻擊的危害 SQLMap介紹 2.1 SQLMap簡介 2.2 SQLMap安裝與配置 2.3 SQLMap基本用法 SQLMap進階使用 3.1 SQLMap高級用法 3.2 SQLMap配置文件詳解 3.3 SQLMap插件的使用 SQL注入漏洞檢測 4.1 SQL注入…

vue3中關于echars的使用

今天介紹一個好用的插件echars&#xff0c;一個可視化插件Apache ECharts 一、使用步驟 1、安裝 npm install echarts --save 2、導入 import * as echarts from echarts 3、正式使用 echars的使用非常的簡單&#xff0c;直接點擊官網有現成的代碼的可用 代碼示例 <t…

微服務——服務保護Sentinel

雪崩問題 在單體項目里面&#xff0c;如果某一個模塊出問題會導致整個項目都有問題。 在微服務項目里面&#xff0c;單獨一個服務出問題理論上是不會影響別的服務的。 但是如果有別的業務需要調用這一個模塊的話還是會有問題。 問題產生原因和解決思路 最初那只是一個小小…

k8s之高級調度

1. CronJob 在 k8s 中周期性運行計劃任務&#xff0c;與 linux 中的 crontab 相同 注意點&#xff1a;CronJob 執行的時間是 controller-manager 的時間&#xff0c;所以一定要確保 controller-manager 時間是準確的&#xff0c;另外 cronjobapiVersion: batch/v1 kind: CronJ…

ChatGPT 應用開發(一)ChatGPT OpenAI API 免代理調用方式(通過 Cloudflare 的 AI Gateway)

前言 開發 ChatGPT 應用&#xff0c;我覺得最前置的點就是能使用 ChatGPT API 接口。首先我自己要能成功訪問&#xff0c;這沒問題&#xff0c;會魔法就可以本地調用。 那用戶如何調用到我的應用 API 呢&#xff0c;我的理解是通過用戶能訪問到的中轉服務器向 OpenAI 發起訪問…

成都工業學院Web技術基礎(WEB)實驗四:CSS3布局應用

寫在前面 1、基于2022級計算機大類實驗指導書 2、代碼僅提供參考&#xff0c;前端變化比較大&#xff0c;按照要求&#xff0c;只能做到像&#xff0c;不能做到一模一樣 3、圖片和文字僅為示例&#xff0c;需要自行替換 4、如果代碼不滿足你的要求&#xff0c;請尋求其他的…