計算機視覺CS231n學習(1)

面向視覺識別的卷積神經網絡 CS231n Introduction
  1. 計算機視覺的歷史 the history of computer vision

    重要節點:

    1. 1959 Hubel & Wiesel

      利用和人比較相像的貓的視覺神經做實驗:簡單細胞反應燈的位置;復雜細胞反應燈的位置和移動;超常細胞反應最后的點的移動

    2. 1963 Block world

      特征點的選擇

    3. 1970s Stage of Visual Representation 視覺表征階段

      input image -> edge image(primal sketch) -> 2-D shetch -> 3-D model

    4. 1973 Pictorial Structure

    5. 1979 Generalized Cylinder

    6. 1987 maybe 重要輪廓?

    7. 1997 Normalized Cut 圖像像素分割

    8. 2001 Face Detection 面部檢測

    9. 1999 SIFT & Object Recognition 尺度不變特征變換

    10. 2006 Spatial Pyramid Matching 金字塔匹配

    11. 2005 Histogram of Gradients HoG 梯度直方圖

    12. 2009 Deformable Part Model 可變形的部件模型

    13. 2006-2012 PASCAL Visual Object Challenge

圖像分類 image classification
  1. visual recognition:視覺識別
  2. 目標檢測object detection
  3. 圖像摘要image captioning:根據圖片內容生成描述信息
  4. 但是視覺上的智能要遠遠超過簡單的目標檢測,比如可以識別圖像表達的含義,圖像中的物體相互之間的聯系,推斷圖像中正在發生什么 等等等
圖像分類流程 Image Classification pipeline

在機器視覺當中,圖像分類是一個核心的任務

  1. 圖像分類會遇到很多問題

    比如語義鴻溝:用像素點去表示圖像

    視角變化、光線變化、目標變形、目標被遮擋、背景和目標相似性大、同類目標之間的差異性對圖像造成的影響。。。

  2. 解決方法 - 數據驅動

    收集大量的各種各樣的目標圖像,為了讓模型學習到更多樣的特征,更具有泛化性和魯棒性

  3. 第一種分類器:近鄰算法

    我的理解就是兩張圖片的相似性吧 下面是相似性的計算方法

    圖像比較的距離度量標準:

    1. L1 distance

      在這里插入圖片描述

      但是這種算法存在訓練時時間復雜度為1,推理時時間復雜度為n的情況,我們想要的是訓練耗時但推理很快的模型

    2. L2 distance

      在這里插入圖片描述

    K最近鄰算法:K-Nearest Neighbors:

    這種算法不是從最近鄰復制標簽, 而是從K個最近點中采取多數表決majority vote

    K最近鄰算法可以采取上述圖像比較的距離度量標準的任意一種

    兩種問題:

    1. k的選擇

      當需要對一個新樣本進行預測的時候,模型會在訓練集中尋找與該樣本最相似的k個樣本,然后以這k個樣本中哪個種類數最多來判斷這個新樣本的中來,so K 決定了 “參考多少個鄰居” 來做預測,是 KNN 的核心超參數。

    2. L1 / L2 distance的選擇

      L1/L2 距離 用于量化樣本間的相似度,決定了 “誰是最近鄰”,直接影響鄰居的選擇結果。

    解決方法 - 訓練集 驗證集 測試集

    設定不同的超參數k,在分成幾份的訓練集上訓練,用驗證集驗證,在測試集上觀察對完全嶄新樣本的預測

    (訓練集:模型在訓練集當中進行反向傳播更新參數;驗證集:驗證集僅用來作為判斷模型預測的結果和真實結果的誤差,不進行參數更新;測試集:就是模擬真實世界的情況,觀察預測的結果)

    但是K最近鄰算法幾乎不用在圖像上:推理速度慢、基于像素的距離度量缺乏信息量(就是說可能肉眼幾個差異大的圖片輸進去可能和原圖的像比較的距離度量標準相同)、會發生維度災難(高維的運算量大)

    線性分類 Linear Classification

    參數化方法 parametric approach 用線性分類器,就是可以通過線性的曲線將所有類別都分隔開來

    但是肯定不是所有的類別都能用線性的曲線分隔開來的

    問題:

    1. 怎么確定參數是不是合適的?

    解決方法:

    1. 損失函數 (計算真實結果和預測結果的差值 我們的目標就是最小化它)
    2. 優化器(梯度下降方法 等)
    3. 卷積網絡 (可以處理非線性的問題)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/93754.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/93754.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/93754.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【NLP輿情分析】基于python微博輿情分析可視化系統(flask+pandas+echarts) 視頻教程 - 微博內容IP地圖可視化分析實現

大家好,我是java1234_小鋒老師,最近寫了一套【NLP輿情分析】基于python微博輿情分析可視化系統(flaskpandasecharts)視頻教程,持續更新中,計劃月底更新完,感謝支持。今天講解微博內容IP地圖可視化分析實現 視頻在線地…

Z20K118庫中寄存器及其庫函數封裝-SYSCTRL庫

1. 系統設備識別寄存器(SCM)7個位域。 記錄設備信息。Z20K11x[FAM_ID:Z20K/Z20M,SUBF_ID:1/3,SER_ID:1/4]特征ID版本號FLASH存儲器大小封裝類型。1-1 SYSCTRL_DeviceId_t SYSCTRL_GetDeviceId(void)讀取設備信息。2.獨一ID號寄存器(SCM)4個該寄存器存儲完…

007TG洞察:波場TRON上市觀察,Web3流量工具的技術解析與應用

引言:波場TRON(TRX)登陸資本市場及近期加密市場熱點(如MEME幣),凸顯了實時流量捕獲與轉化在Web3領域的戰略地位。對于技術團隊而言,構建支撐全球業務的Web3平臺,核心挑戰在于&#x…

STM32——HAL 庫MDK工程創建

總:STM32——學習總綱 參考工程: 實驗0-3,新建工程實驗-HAL庫版本 前置知識: STM32——HAL庫 一、HAL 庫 MDK工程新建步驟簡介 例: 各個文件夾內容: 1.1 Drivers 1.2 Middlewares 1.3 Output 1.4 Pro…

【圖像處理】霍夫變換:霍夫變換原理、霍夫空間、霍夫直線、霍夫圓詳解與代碼示例

霍夫變換詳解與代碼示例 霍夫變換(Hough Transform)是一種用于檢測圖像中幾何形狀(如直線、圓)的特征提取技術。其核心思想是將圖像空間中的點映射到參數空間(霍夫空間),通過累積投票機制識別形…

Java WEB技術-序列化和反序列化認識(SpringBoot的Jackson序列化行為?如何打破序列化過程的駝峰規則?如何解決學序列化循環引用問題?)

一、什么是序列化和反序列化 在java項目中,對象序列化和反序列化通常用于對象的存儲或網絡傳輸等。如:服務端創建一個JSON對象,對象如何在網絡中進行傳輸呢?我們知道網絡傳輸的數據通常都是字節流的形式,對象想要在網絡…

【生活系列】MBTI探索 16 種性格類型

博客目錄一、MBTI 的四個核心維度1. 精力來源:外向(E)vs 內向(I)2. 信息獲取方式:感覺(S)vs 直覺(N)3. 決策方式:思考(T)v…

innovus在ccopt_design時設置update io latency

我正在「拾陸樓」和朋友們討論有趣的話題,你?起來吧? 拾陸樓知識星球入口 往期文章:

電腦出現英文字母開不了機怎么辦 原因與修復方法

當您按下電腦開機鍵,屏幕上卻只顯示一串串陌生的英文字母,無法正常進入系統時,這通常是電腦在向您“求救”。這種情況可能由多種原因引起,從外部設備沖突到系統文件損壞,都可能導致電腦無法啟動。不必過于焦慮&#xf…

CSS和XPATH選擇器對比

1、優缺點比較特性CSS選擇器XPath語法復雜度簡潔易讀較為復雜性能通常更快可能較慢向上遍歷不支持支持(可選擇父元素)文本內容選擇有限支持完全支持索引選擇支持(:nth-child)支持(position())瀏覽器兼容性優…

libomxil-bellagio移植到OpenHarmony

當使用mesa3dcangh提供的amd顯卡驅動時,想利用 Mesa 提供的圖形硬件加速能力,來支持視頻編解碼操作時。需要依賴libomxil-bellagio庫,現在成果分享如下: 基礎知識 1.OpenHarmony中mesa3d amd顯卡驅動編譯 2.OpenHarmony中基于G…

uvm-tlm-sockets

TLM 2.0引入了套接字(Socket)機制,實現發起方(initiator)與目標方(target)組件間的異步雙向數據傳輸。套接字與端口(port)和導出(export)同源,均繼承自uvm_port_base基類。發起事務的組件使用發起方套接字(initiator socket),稱為發起方&…

AI 如何評價股票:三七互娛(SZ:002555),巨人網絡(SZ:002558)

三七互娛(SZ:002555)作為國內領先的游戲公司,其股票表現需結合財務健康度、行業地位、戰略布局及潛在風險綜合評估。以下從多維度展開分析: 一、財務表現:增長乏力與高分紅并存營收與利潤雙降 2025年Q1營收42.43億元&a…

Vibe Coding:AI驅動開發的安全暗礁與防護體系

當OpenAI聯合創始人Andrej Karpathy在2025年初的推文里首次提及"Vibe Coding"時,這個概念迅速在開發者社區引發共鳴——它描繪了一種誘人的開發模式:開發者用自然語言描述需求,AI接管代碼生成、修改甚至調試,整個過程以…

四、主輔源電路

一、主輔源結構主輔源采用反激變換器拓撲,輸入供電有母線供電、電池輔源供電、電網輔源供電。開關管為一個高耐壓NMOS功率管。主控芯片采用ICE3BS03LJG,其主要參數如下:商品目錄AC-DC控制器和穩壓器是否隔離隔離工作電壓10.5V~26V開關頻率65k…

制造業企業如何保障文件外發圖紙數據安全的?

在制造業的發展進程中,文件外發是必不可少的環節,但這也給圖紙數據安全帶來了諸多挑戰。一旦圖紙數據泄露,企業的核心競爭力可能會受到嚴重損害。那么,制造業企業該如何保障文件外發圖紙數據安全呢?建立完善的管理制度…

RAG:讓AI更聰明的“外接大腦“ | AI小知識

RAG:讓AI更聰明的"外接大腦" 什么是RAG? 想象你在參加知識競賽,突然遇到不會的題目。這時你掏出手機快速搜索正確答案——這就是RAG(Retrieval-Augmented Generation,檢索式增強生成)的工作原理。…

TCP 連接管理 之 三次握手詳解

TCP 連接管理 之 三次握手詳解 (一)TCP三次握手詳細過程及狀態變化 1. 第一次握手(客戶端 → 服務器) 報文標志位:SYN1(同步序列號),ACK0(首次握手無確認)序列…

day066-內容分發網絡(CDN)與web應用防火墻(WAF)

文章目錄0. 老男孩思想-老男孩名言警句1. 云產品日常管理2. 創建快照策略3. CDN 內容分發網絡3.1 添加域名3.2 配置CNAME3.3 測試3.4 CDN刷新/預熱3.5 命中率3.5.1 查看命中率3.5.2 CDN命中率低怎么辦?3.6 訪問控制3.7 流量限制4. WAF web應用防火墻4.1 使用WAF4.2 …

Redis高頻問題全解析

Q1: Redis為什么這么快? Redis速度快主要有四個核心原因。首先是基于內存操作,所有數據都存儲在內存中,避免了磁盤I/O的開銷,內存讀寫速度比磁盤快幾萬倍。其次采用單線程模型,避免了多線程環境下的線程切換和鎖競爭帶…