吳恩達機器學習筆記(1)—引言

目錄

一、歡迎

二、機器學習是什么

三、監督學習

四、無監督學習


一、歡迎

機器學習是當前信息技術領域中最令人興奮的方向之一。在這門課程中,你不僅會學習機器學習的前沿知識,還將親手實現相關算法,從而深入理解其內部機理。

事實上,機器學習已廣泛滲透進我們的日常生活。例如,每次你使用 Google、Bing 進行搜索,或用 Facebook、Apple 的圖像識別功能識別朋友,甚至郵箱中的垃圾郵件過濾器,背后都離不開機器學習算法的支持。這些算法讓系統能夠“學習”如何提供更好的服務。

機器學習之所以廣受歡迎,是因為它不僅服務于人工智能領域,更已成為計算機的一種核心能力。我們以前可以手動編寫程序來解決基礎問題,比如尋找最短路徑,但像網頁搜索、圖像識別、反垃圾郵件等復雜任務,則必須依靠機器自我學習來完成。

它在醫療、工程、計算生物學等多個行業中發揮著巨大作用。比如:

  • 數據挖掘:分析網頁點擊流數據,優化用戶體驗。

  • 醫療健康:通過分析電子病歷,發現疾病模式。

  • 基因研究:處理大規模基因序列,探索生命奧秘。

  • 自動控制:如訓練無人直升機自動飛行。

  • 手寫識別:用于郵件自動分揀。

  • 自然語言處理與計算機視覺:提升語言和圖像理解能力。

  • 個性化推薦系統:如 Amazon、Netflix、iTunes 的推薦功能。

此外,機器學習也被用來幫助我們理解人類學習本身和大腦的工作機制。它不僅推動 AI 夢想的實現,也是 IT 行業最受歡迎的技能之一。許多科技公司都在積極尋找掌握機器學習的人才,遠遠超出目前的供給。

二、機器學習是什么

雖然“機器學習”沒有一個統一的定義,但有兩個經典的描述:

  • Arthur Samuel(20世紀50年代)
    他將機器學習定義為“在沒有明確設置的情況下,使計算機具有學習能力的研究領域”
    他創建了一個西洋棋程序,程序通過與自己對弈上萬次,不斷優化策略,最終下棋水平超過了他本人。

  • Tom Mitchell(卡內基梅隆大學)
    定義:一個程序被認為能從經驗E中學習,解決任務T,達到性能度量值P,當且僅當,有了經驗E后,經過P評判,程序在處理T時的性能有所提升
    例如:垃圾郵件過濾系統

    • 任務 T:識別垃圾郵件

    • 經驗 E:觀察是否把郵件標記為垃圾郵件

    • 性能度量 P:系統正確分類郵件的準確率

機器學習算法主要包括監督學習、無監督學習,以及其他類型如強化學習和推薦系統。

三、監督學習

監督學習指的就是給學習算法一個數據集,其中包含了“正確答案”,通過訓練模型來學習已有數據中的規律,然后運用學習算法算出更多的“正確答案”。下面通過幾個例子來理解它的核心思想。

例子1:預測房價(回歸問題

這里有一份從俄勒岡州的波特蘭市收集的房價數據,把這些數據畫出來,如下圖,橫軸表示房子的面積(平方英尺),縱軸表示房價(千美元)。基于這組數據,如果有一套750平方英尺的房子,想知道這房子能賣多少錢?

可以應用學習算法,對數據進行擬合,比如用一條直線來擬合這些數據,由此看出房子可以賣大約15萬美元;也可以用二次函數來擬合數據可能效果會更好,看出房子可以賣出接近20萬美元。

這種任務就是回歸問題,回歸是指試圖推測連續值的屬性。?在這個例子中“正確答案”是房子的實際售價

例子2:通過查看病歷來判斷乳腺腫瘤是否為惡性(分類問題

假設有一組數據,橫軸表示腫瘤的大小,縱軸是1或0,1代表惡性,0代表良性。有5個良性腫瘤樣本,用藍叉表示,有5個惡性腫瘤樣本,用紅叉表示。現在有個尺寸已知的乳腺腫瘤,能否估算出這個腫瘤是惡性還是良性的概率?

在機器學習的問題中,會有多個特征,比如除了腫瘤尺寸外,還知道患者年齡。如下圖,橫軸表示腫瘤的大小,縱軸表示患者年齡。數據集可能是藍圈表示良性,紅叉表示惡性。在給定的數據集上,學習算法可能用一條直線來分離,并以此來判斷良性或惡性瘤。

在機器學習的算法中,往往會有更多特征,比如腫塊密度、腫瘤細胞大小的一致性、腫瘤細胞形狀的一致性等其它的特征。如何處理更多甚至無窮多的特征呢?后面會講支持向量機算法,里面有一個巧妙的數學技巧,能讓計算機處理無限多個特征。

這種任務屬于分類問題,目標是推測出一個離散的輸出(0或1)。分類問題中,有時會有兩個以上的輸出值,比如:0=良性,1=第一類乳腺癌,2=第二類乳腺癌,3=第三類乳腺癌。這些離散輸出值對應不同的類別,因此屬于多分類問題

四、無監督學習

在無監督學習中,我們的數據集沒有標簽或“正確答案”。我們不知道每個樣本屬于哪一類,甚至不知道應該有多少類。我們唯一擁有的只是原始的數據,算法的任務是從這些數據中自動發現結構或規律

一個典型的無監督學習任務是聚類(Clustering)。算法試圖將數據劃分為若干個簇,如下圖:算法可以自動識別出兩個明顯不同的簇(群組),即使我們事先并不知道這些簇的存在。

?

?聚類算法的實際應用,比如:

  • 谷歌新聞聚類

一個非常貼近生活的應用是 Google News。它每天會收集大量新聞內容,并使用聚類算法自動將相關的新聞歸到一起。你看到的每一組新聞,其實是無監督學習算法將它們聚到一起的結果。

  • 基因表達分析

聚類算法也應用在基因數據分析中。例如,我們可以對不同個體的DNA微陣列數據進行分析,試圖找出是否存在某些特定的基因表達模式。雖然我們并不知道哪些人屬于哪一類,但通過聚類算法,我們可以將具有相似基因表達的個體歸為一類。

無監督學習及其聚類算法被廣泛應用于以下領域:

  • 計算機集群管理

在大數據中心,通過聚類算法自動識別哪些計算機可以協同工作,以提高效率。

  • 社交網絡分析

分析你常聯系的人,自動將社交網絡中的朋友分組,每組中的人彼此熟識。

  • 市場細分(Market Segmentation)

企業可以使用顧客數據,自動將用戶劃分為不同的市場細分群體,進而進行更有針對性的營銷。

  • 天文數據分析

聚類算法也被用于分析星系形成過程,提供了很多有趣且有用的理論支持。

另一種無監督學習任務是雞尾酒宴問題。你可以想象在一個嘈雜的雞尾酒宴會中,有兩個人同時在說話。我們在房間里放置兩個麥克風,分別錄下兩段混合音頻。任務是從這兩段錄音中分離出各自的說話聲。這個任務同樣屬于無監督學習。你不知道哪個聲音是誰的,只能讓算法自己去從音頻中“解混合”,分離出原始的音頻源。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/83283.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/83283.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/83283.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

java筆記08

多線程&JUC 1.什么是多線程 1.什么是多線程?有了多線程,我們就可以讓程序同時做多件事情 2.多線程的作用?提高效率 3.多線程的應用場景?只要你想讓多個事情同時運行就需要用到多線程比如:軟件中的耗時操作、所有…

【仿muduo庫實現并發服務器】使用正則表達式提取HTTP元素

使用正則表達式提取HTTP元素 1.正則表達式2.正則庫的使用3.使用正則表達式提取HTTP請求行 1.正則表達式 正則表達式它其實是描述了一種字符串匹配的模式,它可以用來在一個字符串中檢測一個特定格式的字串,以及可以將符合特定規則的字串進行替換或者提取…

顯示即戰略:鐵電液晶如何成為 “數字中國” 的 “像素基石”?

一、顯示技術:數字時代的核心戰略支點 (一)從 “視覺窗口” 到 “戰略基礎設施” 在數字經濟蓬勃發展的當下,顯示技術早已超越了單純的 “視覺呈現” 范疇,成為連接人與數字世界的關鍵接口。從智能手機、平板電腦到車…

適合小白的超詳細配置YOLOv8教程(畢設必看)(訓練自己數據集)(Pycharm保姆級安裝教程)(lablme的使用)(GPU版)

目錄 1.Pycharm的安裝和虛擬環境調用(已經安裝好的可以跳過此步驟) 1.1 下載pycharm軟件 1.2 調用已創建虛擬環境(調用上一篇教程中創建好的虛擬環境) 2.標注自己數據集(已有數據集的這部分可跳過) 2.1…

EC800X QuecDuino開發板介紹

支持的模組列表 EG800KEC800MEC800GEC800E 功能列表 基本概述 EC800X QuecDuino EVB 搭載移遠 EC800 系列模組。支持模組型號為: EC800M 系列、EC800K 系列、EG800K 系列、EC800E 系列等。 渲染圖 開發板的主要組件、接口布局見下圖 資料下載 EC800X-QuecDui…

Unity + HybirdCLR熱更新 入門篇

官方文檔 HybridCLR | HybridCLRhttps://hybridclr.doc.code-philosophy.com/docs/intro 什么是HybirdCLR? HybridCLR(原名 huatuo)是一個專為 Unity 項目設計的C#熱更新解決方案,它通過擴展 IL2CPP 運行時,使其支持動態加載和…

類 Excel 數據填報

類 Excel 填報模式,滿足用戶 Excel 使用習慣 數據填報,可作為獨立的功能模塊,用于管理業務流程、匯總采集數據,以及開發各類數據報送系統,因此,對于報表工具而言,其典型場景之一就是利用報表模…

MySQL 8.0 OCP 英文題庫解析(十)

Oracle 為慶祝 MySQL 30 周年,截止到 2025.07.31 之前。所有人均可以免費考取原價245美元的MySQL OCP 認證。 從今天開始,將英文題庫免費公布出來,并進行解析,幫助大家在一個月之內輕松通過OCP認證。 本期公布試題81~90 試題81:…

JavaScript 性能優化實戰:從原理到框架的全棧優化指南

在 Web 應用復雜度指數級增長的今天,JavaScript 性能優化已成為衡量前端工程質量的核心指標。本文將結合現代瀏覽器引擎特性與一線大廠實踐經驗,構建從基礎原理到框架定制的完整優化體系,助你打造高性能 Web 應用。 一、性能優化基礎&#x…

基于Web的分布式圖集管理系統架構設計與實踐

引言:為什么需要分布式圖集管理? 在現代Web圖形應用中,紋理圖集(Texture Atlas)技術是優化渲染性能的關鍵手段。傳統的圖集制作流程通常需要美術人員使用專業工具(如TexturePacker)離線制作&am…

鴻蒙OS在UniApp中集成Three.js:打造跨平臺3D可視化應用#三方框架 #Uniapp

在UniApp中集成Three.js:打造跨平臺3D可視化應用 引言 在最近的一個項目中,我們需要在UniApp應用中展示3D模型,并實現實時交互功能。經過技術選型和實踐,我們選擇了Three.js作為3D渲染引擎。本文將分享我們在UniApp中集成Three.…

Flask中關于app.url_map屬性的用法

目錄 一、app.url_map 是什么? 二、可以查看哪些信息? 三、示例:打印所有路由 四、結合 url_for() 使用 五、常見用途場景 六、結合 Flask CLI 使用 總結 app.url_map 是 Flask 中非常重要的一個屬性,用于查看或操作整個應用的 URL 路由映射表(routing map)。它展…

SpringBoot項目搭建指南

SpringBoot項目搭建指南 文章目錄 SpringBoot項目搭建指南一、SpringBoot項目搭建1.1 SpringBoot 版本選擇1.2 SpringBoot 框架引入方式1.2.1 繼承 Starter Parent POM1.2.2 不使用 Parent POM 來使用 Spring Boot 1.3 SpringBoot 打包插件 二、日志框架引入2.1 引入SpringBoot…

數據庫系統概論(十六)數據庫安全性(安全標準,控制,視圖機制,審計與數據加密)

數據庫系統概論(十六)數據庫安全性 前言一、數據庫安全性1. 什么是數據庫安全性?2. 為何會存在安全問題? 二、安全標準的發展1. 早期的“開拓者”:TCSEC標準2. 走向國際統一:CC標準3. TCSEC和CC標準有什么不…

Jvm 元空間大小分配原則

JVM元空間(Metaspace)的大小分配原則與系統物理內存密切相關,但并不是直接等比例分配,而是通過一系列參數和JVM的動態管理機制來確定。下面從原理和實際行為兩方面詳細說明: 1. 元空間(Metaspace&#xff0…

編程之巔:語言的較量

第一章:代碼之城的召集令 在遙遠的數字大陸上,有一座名為“代碼之城”的神秘都市。這里居住著各種編程語言的化身,他們以擬人化的形態生活,每種語言都有獨特的性格與技能。Python是個優雅的學者,C是個硬核戰士&#x…

飛牛fnNAS裝機之迷你小主機的利舊

前幾天找Console線的時候,翻出一臺迷你小主機,想起來以前是做“軟路由”用的,現在用不上了。本想放回箱子,但突然想起最近正在做飛牛NAS的專題,不如將其改造成NAS得了。 這個東東有HDMI、VGA接口,2個USB(其中一個支持3.0),還有4個網口。 打開機蓋,看看內部情況。發現…

uv:一個現代化的 Python 依賴管理工具

在 Python 的生態系統中,依賴管理和 Python 版本管理一直是開發者關注的核心問題。傳統的工具如 pip、poetry 和 pyenv 雖然功能強大,但在性能和使用體驗上仍有改進空間。uv 是由 Python 核心開發者開發的 現代化依賴管理工具,旨在提供更快、…

ubuntu 22.04安裝k8s高可用集群

文章目錄 1.環境準備(所有節點)1.1 關閉無用服務1.2 環境和網絡1.3 apt源1.4 系統優化1.5 安裝nfs客戶端 2. 裝containerd(所有節點)3. master的高可用方案(master上操作)3.1 安裝以及配置haproxy&#xff…

PnP(Perspective-n-Point)算法 | 用于求解已知n個3D點及其對應2D投影點的相機位姿

什么是PnP算法? PnP 全稱是 Perspective-n-Point,中文叫“n點透視問題”。它的目標是: 已知一些空間中已知3D點的位置(世界坐標)和它們對應的2D圖像像素坐標,求解攝像機的姿態(位置和平移&…