1. 機器學習基本知識(5)——練習題(參考答案)

20.🔗本章代碼筆記📓鏈接(需要🪜):(01_the_machine_learning_landscape.ipynb - Colab (google.com))

如果你不想通過上面的官方網址下載本章的筆記,還可以在本篇博文的附件中下載筆記!但我更推薦你支持原版的書和原版的網址


21.參考答案原文及其中文翻譯:

  1. Machine Learning is about building systems that can learn from data.
    機器學習是關于構建能夠從數據中學習的系統。

    Learning means getting better at some task, given some performance measure.
    學習意味著在某些任務上變得更好,這是根據某些性能度量來衡量的。

  2. Machine Learning is great for complex problems for which we have no algorithmic solution, to replace long lists of hand-tuned rules, to build systems that adapt to fluctuating environments, and finally to help humans learn (e.g., data mining).
    機器學習非常適合那些我們沒有算法解決方案的復雜問題,用來替代長長的手工調整規則列表,構建能夠適應波動環境的系統,最終幫助人類學習(例如,數據挖掘)。

  3. A labeled training set is a training set that contains the desired solution (a.k.a. a label) for each instance.
    一個被標記的訓練集是一個訓練集,它為每個實例包含了期望的解決方案(即標簽)。

  4. The two most common supervised tasks are regression and classification.
    兩種最常見的監督任務是回歸和分類。

  5. Common unsupervised tasks include clustering, visualization, dimensionality reduction, and association rule learning.
    常見的無監督任務包括聚類、可視化、降維和關聯規則學習。

  6. Reinforcement Learning is likely to perform best if we want a robot to learn to walk in various unknown terrains, since this is typically the type of problem that Reinforcement Learning tackles. It might be possible to express the problem as a supervised or semi-supervised learning problem, but it would be less natural.
    如果我們希望機器人學會在各種未知地形中行走,強化學習可能會表現得最好,因為這是強化學習通常處理的問題類型。雖然有可能將問題表達為監督或半監督學習問題,但這樣做會顯得不那么自然。

  7. If you don’t know how to define the groups, then you can use a clustering algorithm (unsupervised learning) to segment your customers into clusters of similar customers. However, if you know what groups you would like to have, then you can feed many examples of each group to a classification algorithm (supervised learning), and it will classify all your customers into these groups.
    如果你不知道如何定義組別,那么可以使用聚類算法(無監督學習)將客戶分割成相似客戶的群集。然而,如果你知道你想要的組別,那么你可以向分類算法(監督學習)提供每個組的許多示例,它將把所有客戶分類到這些組中。

  8. Spam detection is a typical supervised learning problem: the algorithm is fed many emails along with their labels (spam or not spam).
    垃圾郵件檢測是一個典型的監督學習問題:算法被輸入了許多電子郵件及其標簽(垃圾郵件或非垃圾郵件)。

  9. An online learning system can learn incrementally, as opposed to a batch learning system. This makes it capable of adapting rapidly to both changing data and autonomous systems, and of training on very large quantities of data.
    在線學習系統可以逐步學習,與批量學習系統相反。這使得它能夠快速適應變化的數據和自主系統,并且能夠訓練大量數據。

  10. Out-of-core algorithms can handle vast quantities of data that cannot fit in a computer’s main memory. An out-of-core learning algorithm chops the data into mini-batches and uses online learning techniques to learn from these mini-batches.
    核心外算法可以處理大量無法適應計算機主存儲器的數據。核心外學習算法將數據分割成小批量,并使用在線學習技術從小批量中學習。

  11. An instance-based learning system learns the training data by heart; then, when given a new instance, it uses a similarity measure to find the most similar learned instances and uses them to make predictions.
    基于實例的學習系統通過心記憶訓練數據;然后,當給定一個新的實例時,它使用相似性度量來找到最相似的學習實例,并用它們進行預測。

  12. A model has one or more model parameters that determine what it will predict given a new instance (e.g., the slope of a linear model). A learning algorithm tries to find optimal values for these parameters such that the model generalizes well to new instances. A hyperparameter is a parameter of the learning algorithm itself, not of the model (e.g., the amount of regularization to apply).
    模型有一個或多個模型參數,這些參數決定了它將對新實例進行什么預測(例如,線性模型的斜率)。學習算法試圖找到這些參數的最優值,以便模型能夠很好地泛化到新實例。超參數是學習算法本身的參數,而不是模型的參數(例如,要應用的正則化量)。

  13. Model-based learning algorithms search for an optimal value for the model parameters such that the model will generalize well to new instances. We usually train such systems by minimizing a cost function that measures how bad the system is at making predictions on the training data, plus a penalty for model complexity if the model is regularized. To make predictions, we feed the new instance’s features into the model’s prediction function, using the parameter values found by the learning algorithm.
    基于模型的學習算法尋找模型參數的最優值,以便模型能夠很好地泛化到新實例。我們通常通過最小化一個代價函數來訓練這樣的系統,該函數衡量系統在訓練數據上進行預測的表現有多差,如果模型進行了正則化,還會加上模型復雜性的懲罰。要進行預測,我們將新實例的特征輸入到模型的預測函數中,使用學習算法找到的參數值。

  14. Some of the main challenges in Machine Learning are the lack of data, poor data quality, nonrepresentative data, uninformative features, excessively simple models that underfit the training data, and excessively complex models that overfit the data.
    機器學習面臨的一些主要挑戰包括數據缺乏、數據質量差、數據不具代表性、特征不具信息量、過于簡單的模型導致訓練數據欠擬合,以及過于復雜的模型導致數據過擬合。

  15. If a model performs great on the training data but generalizes poorly to new instances, the model is likely overfitting the training data (or we got extremely lucky on the training data). Possible solutions to overfitting are getting more data, simplifying the model (selecting a simpler algorithm, reducing the number of parameters or features used, or regularizing the model), or reducing the noise in the training data.
    如果一個模型在訓練數據上表現很好,但對新實例的泛化能力很差,那么模型可能過擬合了訓練數據(或者我們在訓練數據上非常幸運)。解決過擬合的可能方案是獲取更多數據、簡化模型(選擇一個更簡單的算法、減少使用的參數或特征數量,或者對模型進行正則化)或減少訓練數據中的噪聲。

  16. A test set is used to estimate the generalization error that a model will make on new instances, before the model is launched in production.
    測試集用于在模型投入生產之前估計模型將在新實例上犯的泛化錯誤。

  17. A validation set is used to compare models. It makes it possible to select the best model and tune the hyperparameters.
    驗證集用于比較模型。它使得選擇最佳模型和調整超參數成為可能。

  18. The train-dev set is used when there is a risk of mismatch between the training data and the data used in the validation and test datasets (which should always be as close as possible to the data used once the model is in production). The train-dev set is a part of the training set that’s held out (the model is not trained on it). The model is trained on the rest of the training set, and evaluated on both the train-dev set and the validation set. If the model performs well on the training set but not on the train-dev set, then the model is likely overfitting the training set. If it performs well on both the training set and the train-dev set, but not on the validation set, then there is probably a significant data mismatch between the training data and the validation + test data, and you should try to improve the training data to make it look more like the validation + test data.
    當訓練數據與驗證和測試數據集使用的數據之間存在不匹配的風險時,使用訓練-開發集(train-dev set)。訓練-開發集是保留出來的訓練集的一部分(模型未在此部分上訓練)。模型在訓練集的其余部分上進行訓練,并在訓練-開發集和驗證集上進行評估。如果模型在訓練集上表現良好,但在訓練-開發集上表現不佳,那么模型可能過擬合了訓練集。如果它在訓練集和訓練-開發集上都表現良好,但在驗證集上表現不佳,那么訓練數據與驗證+測試數據之間可能存在顯著的數據不匹配,你應該嘗試改進訓練數據,使其更接近驗證+測試數據。

  19. If you tune hyperparameters using the test set, you risk overfitting the test set, and the generalization error you measure will be optimistic (you may launch a model that performs worse than you expect).
    如果你使用測試集來調整超參數,你冒著過擬合測試集的風險,你測量的泛化錯誤將會是樂觀的(你可能推出的模型表現比你預期的要差)。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/62769.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/62769.shtml
英文地址,請注明出處:http://en.pswp.cn/web/62769.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

通常一個 Xml 映射文件,都會寫一個 Dao 接口與之對應, 請問,這個 Dao 接口的工作原理是什么?Dao 接口里的方法, 參數不同時,方法能重載嗎?

Dao 接口 即 Mapper 接口 。接口 的 全 限 名 ,就是 映 射 文 件 中 的 namespace 的值 ; 接口 的 方 法 名 , 就 是 映 射 文 件 中 Mapper 的 Statement 的 id 值; 接 口 方 法 內 的 參數 , 就 是 傳 遞 給 sql 的參…

硬件設計 | Altium Designer軟件PCB規則設置

基于Altium Designer(24.9.1)版本 嘉立創PCB工藝加工能力范圍說明-嘉立創PCB打樣專業工廠-線路板打樣 規則參考-嘉立創 注意事項 1.每次設置完規則參數都要點擊應用保存 2.每次創建PCB,都要設置好參數 3.可以設置默認規則,將…

WebDAV服務不能上傳大文件,文件超過50M報錯[0x800700DF]怎么辦?

這個問題需要分別從服務端和客戶端解決。 1.Windows客戶端 解除50M文件限制,Windows訪問Webdav服務時,大于50M文件提示錯誤[錯誤:0x800700DF] 部署了webdav,Windows10映射網絡磁盤,傳輸文件超過大約50MB的文件會彈出“0x800700…

安全基礎學習-keil調試匯編代碼

初始目的是為了通過匯編編寫CRC功能。 但是基礎為0,所以目前從搭建工程開始記錄。 大佬繞路。 (一)創建項目 1. 新建項目 打開 Keil uVision。選擇 Project -> New uVision Project 創建一個新項目。選擇你的目標設備(如 AR…

安裝qt 5.15.2筆記

撰文是2024年12月 最終實現了 1、用梯子下載了離線包5.14.2,最后沒用 2、用內地鏡像在線安裝5.15.2,3分鐘裝完 正文開始,qt官方簡稱官方。 官方包官方自5.15.X起,不再提供的exe/run安裝包https://download.qt.io/archive/qt/ …

Redis Java 集成到 Spring Boot

Hi~!這里是奮斗的明志,很榮幸您能閱讀我的文章,誠請評論指點,歡迎歡迎 ~~ 🌱🌱個人主頁:奮斗的明志 🌱🌱所屬專欄:Redis 📚本系列文章為個人學習筆…

【Syncfusion系列】Diagram 雜談 第三篇 序列化和反序列化

目錄 序列化保存C# 代碼示例, 方式1 :C# 代碼示例, 方式2 : 反序列化加載C# 代碼示例, 方式1:C# 代碼示例, 方式2: **如何序列化自定義屬性**序列化和反序列化都存在的一個問題解決方式 圖表是否已修改&…

麒麟信安推出支持信創PC的新一代云桌面方案,助力政務信創高效安全運維

12月11日,在第二屆國家新一代自主安全計算系統產業集群融通生態大會上,麒麟信安發布了支持信創PC的新一代云桌面方案,該方案是基于國際TCI架構實現國產PC機云化納管在國內的首次發布,并與銀河麒麟桌面操作系統、長城國產PC整機實現…

中國科學院2001年數據結構試題

一、單項選擇題(每空2分,共20分) 1.下列函數中漸近時間復雜度最小的是( )。 A.T1(n)nlog2n5000n B.T2(n)n2-8000n C.T3(n)nlog221-6000n D.T4(n)2nlog2n-7000n 2.線性表的靜態鏈表存儲結構與順序…

MySQL數據表記錄刪操作

刪除操作:作用刪除表里的記錄行(都是整行整行的刪除的) 1.單表的刪除 語法 delete from 表名 where 要刪除的記錄篩選條件; 案例:刪除員工編號大于203的員工信息 delete from employees where employee_id>203; 2.多表的刪除…

網絡原理04

可靠傳輸,是TCP最核心的特性 可靠傳輸不是說數據100%傳輸給接收方了 1)發送方發出數據后,能過知道接收方是否收到數據 2)一旦發現對方沒收到,可以通過一定的方法”補救” 1. 確認應答 發送方,把數據已…

微信小程序5-圖片實現點擊動作和動態加載同類數據

搜索 微信小程序 “動物覓蹤” 觀看效果 感謝閱讀,初學小白,有錯指正。 一、功能描述 a. 原本想通過按鈕加載背景圖片,來實現一個可以點擊的搜索button,但是遇到兩個難點,一是按鈕大小調整不方便(網上搜索…

Java里局部變量和成員變量的隱式初始化

注:本文是對另一篇文檔( https://blog.csdn.net/duke_ding2/article/details/142365872 )的補充。 文章目錄 環境初始化局部變量(棧)成員變量(堆)其它數組 分析安全性性能成員變量 VS. 局部變量…

孚盟云 MailAjax.ashx SQL注入漏洞復現

0x01 產品簡介 上海孚盟軟件有限公司是一家外貿SaaS服務提供商,也是專業的外貿行業解決方案專業提供商。 全新的孚盟云產品,讓用戶可以用云模式實現信息化管理,讓用戶的異地辦公更加流暢,大大降低中小企業在信息化上成本,用最小的投入享受大型企業級別的信息化服務,主要…

“切片賦值”創建列表批量操作“新”方法(Python)

[start:end]切片賦值,擴展了list批量增減元素的操作能力。 (筆記模板由python腳本于2024年12月06日 15:07:56創建,本篇筆記適合研python基礎的coder翻閱) 【學習的細節是歡悅的歷程】 Python 官網:https://www.python.org/ Free:…

LabVIEW實現GPS通信

目錄 1、GPS通信原理 2、硬件環境部署 3、程序架構 4、前面板設計 5、程序框圖設計 6、測試驗證 本專欄以LabVIEW為開發平臺,講解物聯網通信組網原理與開發方法,覆蓋RS232、TCP、MQTT、藍牙、Wi-Fi、NB-IoT等協議。 結合實際案例,展示如何利用LabVIEW和常用模塊實現物聯網系…

Java簡介:打開通往變成世界的大門

Java是什么?為什么它是全球開發者廣泛使用的語言?本篇文章介紹Java的特點、應用場景以及“寫一次,隨處運行”的核心特性,讓零基礎的你建立對Java語言的初步認知。 注:此文章可以僅作了解,不影響之后的學習。…

Unraid實現相冊同步與展示的方案探討

背景:Unraid作為一個NAS系統,能夠實現基本的NAS文件管理功能,但是不提供額外的功能如影音、同步、辦公、和內網穿透等,這些在其他的NAS產品如群暉、綠聯、威聯通等都是提供支持的。然而unraid也有其他方案,即通過特別方…

常見的網絡攻擊手段

IP 欺騙 IP 是什么? 在網絡中,所有的設備都會分配一個地址。這個地址就仿佛小藍的家地址「多少號多少室」,這個號就是分配給整個子網的,「室」對應的號碼即分配給子網中計算機的,這就是網絡中的地址。「號」對應的號碼為網絡號…

積分形式的輻射傳輸方程

The Equation of Transfer in Integral Form Let L L L be the streaming-collision operator, and S S S is scattering operator, we have L I Ω ? ? I ( r , Ω ) σ ( r , Ω ) I ( r , Ω ) LI\Omega\cdot\nabla I(r,\Omega)\sigma(r,\Omega)I(r,\Omega) LIΩ??…