【機器學習入門】5.2 回歸的起源——從身高遺傳到線性模型的百年演變

提到 “回歸”,很多剛入門的同學會覺得它是個抽象的數學概念,但你可能想不到,這個術語的誕生,竟然源于 19 世紀一位生物學家對 “身高遺傳” 的研究。回歸分析從 “觀察生物現象” 出發,逐步發展成機器學習中預測連續值的核心工具,這背后藏著一段有趣的科學史。

這篇文章會沿著 “歷史脈絡” 展開,從 “回歸的提出者(高爾頓)” 講起,詳細拆解他的身高遺傳實驗、“向均值回歸” 現象的發現、“回歸” 術語的由來,再到線性回歸模型的雛形,讓你不僅懂 “回歸是什么”,更懂 “它從哪里來”,全程貼合入門認知,不堆砌復雜公式,用生活化的例子還原這段科學歷程。

一、回歸的 “創始人”:弗朗西斯?高爾頓(Sir Francis Galton)

要講回歸的起源,必須先認識一個人 ——弗朗西斯?高爾頓(1822-1911),英國著名的生物學家、統計學家,也是 “進化論之父” 達爾文的表弟。

高爾頓的研究興趣非常廣泛,從氣象學到遺傳學,但讓他與 “回歸” 結緣的,是他對 “遺傳規律” 的探索 ——19 世紀末,他一直困惑一個問題:
“如果父母身高很高,他們的孩子會不會越來越高?如果父母身高很矮,孩子會不會越來越矮?長此以往,人類的身高會不會出現‘極端分化’(要么特別高,要么特別矮)?”

圖片來源于網絡,僅供學習參考

為了回答這個問題,他做了一項劃時代的研究,這也成為 “回歸分析” 的起點。

二、關鍵實驗:身高遺傳的 “向均值回歸” 現象

高爾頓沒有停留在猜想,而是通過 “數據收集 + 分析” 驗證自己的疑問,整個實驗過程清晰且嚴謹,即使放在今天看,也符合科學研究的邏輯。

2.1 實驗第一步:收集數據 —— 幾百個家庭的身高記錄

高爾頓聯合助手,收集了近 1000 個家庭的身高數據,涵蓋父母和子女(每個家庭至少包含 1 位父母和 1 位成年子女)。為了簡化分析,他做了兩個關鍵處理:

  1. 統一 “父母身高” 計算方式:將 “父親身高” 和 “母親身高 ×1.08”(當時認為母親身高需換算成 “等效父親身高”,避免性別差異影響)取平均值,得到 “父母平均身高”(記為x);
  2. 聚焦 “成年子女身高”:只統計子女成年后的身高(記為y),避免年齡對身高的影響。

最終,他得到了一組 “父母平均身高 - 子女身高” 的配對數據,比如(父母平均 72 英寸,子女 70 英寸)、(父母平均 62 英寸,子女 64 英寸)等(注:1 英寸≈2.54 厘米,當時英國常用英寸作為身高單位)。

2.2 實驗第二步:分析數據 —— 意外發現 “向均值回歸”

高爾頓將收集到的數據繪制成 “散點圖”(橫軸是父母平均身高x,縱軸是子女身高y),然后觀察數據的分布規律,結果卻出乎他的意料:
身高并沒有出現 “極端分化”,反而呈現 “向均值靠攏” 的趨勢—— 這就是后來被稱為 “向均值回歸(Regression to the Mean)” 的核心現象。

我們用具體數據舉例,更直觀理解這個現象(當時英國成年男性的平均身高約為 68 英寸):

  • 高個子父母組:父母平均身高 72 英寸(比均值高 4 英寸),他們的子女平均身高約為 70 英寸(比均值高 2 英寸)—— 子女比父母矮,向均值靠攏;
  • 矮個子父母組:父母平均身高 62 英寸(比均值低 6 英寸),他們的子女平均身高約為 64 英寸(比均值低 4 英寸)—— 子女比父母高,也向均值靠攏;
  • 中等身高父母組:父母平均身高 68 英寸(等于均值),他們的子女平均身高也接近 68 英寸 —— 基本穩定在均值附近。

高爾頓在論文中描述這個現象時說:“身高的遺傳就像被一根‘無形的線’拉著,極端值總會向平均水平回歸,這讓人類身高在長期中保持穩定,不會出現極端分化。”

2.3 “回歸” 術語的誕生:從 “Regression” 到中文翻譯

高爾頓在 1886 年發表的《遺傳的身高向均值回歸》論文中,第一次使用 “Regression” 這個詞來描述上述現象 ——“Regression” 在拉丁語中本意是 “回到之前的狀態”,在這里特指 “子女身高回到人類平均身高的狀態”。

后來,這個術語被統計學家沿用,并逐步推廣到更廣泛的領域:只要數據呈現 “極端值向均值靠攏” 的規律,都可以稱為 “回歸現象”;而用于分析這種現象的數學方法,就被稱為 “回歸分析”。

到了 20 世紀,回歸分析傳入中國,“Regression” 被翻譯成 “回歸”,既保留了 “回到均值” 的核心含義,又簡潔易懂,一直沿用至今。

三、從 “現象” 到 “模型”:線性回歸的雛形

高爾頓沒有止步于發現 “向均值回歸” 現象,他進一步思考:“父母身高和子女身高之間,是否存在可量化的數學關系?能不能用一個公式,根據父母身高預測子女身高?”

這一步,他從 “生物學家” 變成了 “統計學家”,也為后來的 “線性回歸模型” 奠定了基礎。

3.1 擬合 “線性預測線”:找到身高遺傳的數學規律

高爾頓將 “父母平均身高x” 和 “子女身高y” 的散點圖放在坐標系中,發現這些點雖然分散,但整體呈現 “線性趨勢”—— 可以用一條直線來近似描述兩者的關系。

他通過當時的 “最小二乘法”(一種讓直線與散點 “距離最近” 的數學方法),擬合出了第一條 “身高遺傳預測線”,對應的公式(以英寸為單位)為:y=33.73+0.516x

我們來拆解這個公式的含義(入門階段不用糾結計算細節,重點看物理意義):

圖片來源于網絡,僅供學習參考
  • x:父母平均身高(單位:英寸);
  • y:預測的子女身高(單位:英寸);
  • 斜率 0.516:表示 “父母身高每增加 1 英寸,子女身高平均增加 0.516 英寸”—— 這體現了遺傳的 “傳遞強度”,小于 1 說明子女身高不會像父母那樣極端,符合 “向均值回歸” 規律;
  • 截距 33.73:表示 “當父母平均身高為 0 英寸(極端情況)時,子女身高的基礎值”—— 主要用于調整公式的整體水平,讓預測更貼合實際數據。
例子:用公式預測子女身高

假設一對父母的平均身高是 72 英寸(高個子父母),代入公式:y=33.73+0.516×72=33.73+37.152=70.882英寸
約等于 71 英寸,比父母平均身高 72 英寸矮,符合 “向均值回歸”(均值 68 英寸)的規律,和高爾頓觀察到的現象完全一致。

3.2 單位換算:從英寸到米的適配

隨著國際單位制的推廣,身高單位逐漸從 “英寸” 改為 “米”,高爾頓的公式也被調整為米的版本(保持數學關系不變):y=0.8567+0.516x

其中:

  • x:父母平均身高(單位:米);
  • y:預測的子女身高(單位:米);
  • 斜率仍為 0.516:說明 “遺傳傳遞強度” 與單位無關,是身高遺傳的固有規律;
  • 截距 0.8567:對應英寸公式的 33.73 英寸(33.73×2.54≈85.67 厘米 = 0.8567 米)。
例子:米單位下的預測

父母平均身高 1.83 米(約 72 英寸),代入公式:y=0.8567+0.516×1.83≈0.8567+0.944≈1.80米
約 1.80 米,比父母平均身高 1.83 米矮,同樣符合 “向均值回歸” 規律(人類平均身高約 1.75 米)。

3.3 回歸分析的 “進化”:從身高到更廣泛的預測

高爾頓的身高遺傳研究,本質上是 “用線性關系描述兩個變量的預測關系”—— 這正是后來 “線性回歸” 的核心邏輯。隨著統計學的發展,回歸分析逐步突破了 “身高遺傳” 的局限,推廣到更多領域:

  • 經濟學家用回歸分析預測 “GDP 與就業率的關系”;
  • 農學家用回歸分析預測 “施肥量與農作物產量的關系”;
  • 醫生用回歸分析預測 “血壓與年齡的關系”;
  • 到了機器學習時代,回歸分析進一步升級,成為 “預測連續值” 的核心模型(如房價預測、銷量預測)。

可以說,高爾頓當年的一個簡單實驗,開啟了一門影響深遠的統計與機器學習分支。

四、回歸起源的核心啟示:對入門學生的 3 點啟發

了解回歸的起源,不僅是 “學歷史”,更能幫你理解回歸分析的本質,避免陷入 “只記公式不懂原理” 的誤區。對入門學生來說,有 3 點關鍵啟示:

4.1 回歸的本質:不是 “倒退”,而是 “規律”

很多人看到 “回歸” 就以為是 “回到過去”,其實不然 —— 回歸的核心是 “數據的統計規律”:極端值總會向均值靠攏,這是一種自然的統計現象,不是 “倒退”,而是 “穩定” 的體現。
比如考試成績:某次考 100 分(極端高分)的同學,下次可能考 90 分(向班級均值靠攏);某次考 50 分(極端低分)的同學,下次可能考 60 分 —— 這不是 “退步” 或 “進步”,而是回歸規律的體現。

4.2 線性回歸的初心:用簡單模型描述復雜關系

高爾頓擬合的 “身高預測線”,是最簡單的線性模型 —— 只用一個一次函數,就描述了父母身高與子女身高的關系。這告訴我們:好的模型不一定復雜,能準確描述規律的簡單模型,往往更有價值
入門階段學習線性回歸,就是要掌握 “用簡單線性關系解決預測問題” 的思維,這是后續學習復雜模型(如多項式回歸、神經網絡)的基礎。

4.3 數據驅動:回歸分析的核心是 “用數據說話”

高爾頓的研究不是 “拍腦袋猜想”,而是基于近 1000 個家庭的真實數據 —— 從數據中發現現象,再用模型描述現象,這是回歸分析乃至整個機器學習的核心邏輯。
未來你做回歸任務時,也要記住:先理解數據(比如看散點圖、分析特征與目標的關系),再選擇模型,而不是直接套用公式。

五、總結:回歸的 “前世今生”

我們用一條時間線,梳理回歸從起源到發展的關鍵節點,幫你形成完整認知:

  1. 1880s:高爾頓收集家庭身高數據,發現 “向均值回歸” 現象,提出 “Regression” 術語;
  2. 1886 年:高爾頓發表論文,擬合出第一條 “線性預測線”,線性回歸模型雛形誕生;
  3. 20 世紀初:統計學家完善 “最小二乘法”,為線性回歸提供堅實的數學基礎;
  4. 20 世紀中后期:回歸分析推廣到經濟、農業、醫療等領域,成為經典統計工具;
  5. 21 世紀:回歸分析與機器學習結合,成為預測連續值的核心模型,應用于房價、銷量、股價等場景。

回歸的起源故事告訴我們:很多偉大的科學概念,都源于對生活現象的好奇與探索。對入門學生來說,學習回歸不僅要掌握公式和代碼,更要理解它背后的科學思維 ——“用數據發現規律,用模型解決問題”。

下一章我們會深入講解 “線性回歸的數學原理”,帶你從 “理解起源” 走向 “掌握方法”。如果這篇文章里有哪個歷史細節或公式沒搞懂,歡迎在評論區留言,我們一起拆解!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/95423.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/95423.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/95423.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

輕型載貨汽車變速器設計cad+設計說明書

摘 要 變速器是汽車重要的傳動系組成,在較大范圍內改變汽車行駛速度的大小和汽車驅動輪上扭矩的大小。變速器能在發動機旋轉方向不變的前提下,使汽車倒退行駛,而且利用擋位可以中斷動力的傳遞。所以變速器的結構設計的合理性直接影響到汽車動…

如何對嵌入式軟件進行單元測試

ceedling就是一款嵌入式軟件測試框架。ceedling是一個用ruby語言編寫的C語言自動化測試框架,它集成了Cmock、Unity和Cexception等多個開源項目。在整個ceedling框架中,使用unity進行代碼測試,使用CMock生成模擬函數,使用CExceptio…

通義萬相Wan2.2-S2V-14B:AI視頻生成的革命性突破與實踐指南

一張圖片+一段音頻=電影級數字人視頻?這不是魔法,是開源AI技術帶來的現實。 近日,阿里巴巴通義萬相團隊開源了Wan2.2-S2V-14B模型,僅在短短幾天內就引發了AI視頻生成領域的震動。這個僅需**一張靜態圖片**和**一段音頻**就能生成影視級質量視頻的模型,正在改變我們對AI視…

基于 HTML、CSS 和 JavaScript 的智能圖像銳化系統

目錄 1 前言 2 技術實現 2.1 HTML:構建系統骨架? 2.2 CSS:打造視覺與交互體驗? 2.3 JavaScript:實現核心銳化邏輯? 3 代碼解析 3.1 數據存儲與初始化 3.2 圖像加載流程 3.3 銳化算法核心:卷積計算? 3.4 下載功能實現…

(MySQL)分布式鎖

在分布式系統中,多個進程可能會同時對同一資源進行操作,如果沒有同步機制,就會造成數據不一致問題。為了避免這種情況,需要分布式鎖。Redis 是常見的實現方式,但在某些場景下,我們也可以使用 MySQL 來實現分…

基于RS-485接口的芯片的FPGA驅動程序

1.簡介ADM3485E 是一款 3.3V 低功耗數據收發器,具有 15kV 的 ESD(靜電放電) 保護,專為多點總線傳輸線上的半雙工通信設計。它支持平衡數據傳輸,符合 TIA/EIA 標準 RS-485 和 RS-422 的要求。作為一款半雙工收發器&…

SQLSERVER關鍵字:N

在 SQL Server 中,單獨的 N 并不是一個 “關鍵字”,但它作為前綴有特殊含義 —— 用于標識字符串為 Unicode 字符串(對應 NVARCHAR、NCHAR 等 Unicode 數據類型)。具體作用當字符串前加 N 前綴時,SQL Server 會將該字符…

【MySQL基礎】MySQL核心操作全解析

【MySQL基礎】MySQL核心操作全解析前言一、數據庫操作😶?🌫?1.1 查看數據庫🔍1.2 創建數據庫? 1.3 選擇數據庫📌 1.4 刪除數據庫? 二、數據表操作📋 2.1 創建數據表? 2.2 查看數據表🔍 2.3 查看表結構…

Uniapp中微信小程序自定義導航欄

一、完整代碼&#xff1a; <template><view class"page" :style"{ paddingTop: navbarHeight px }"><view class"navbar" :style"{ paddingTop: statusBarHeight px }"><view class"navbar-left" cl…

6 種可行的方法:小米手機備份到電腦并恢復

安卓手機&#xff0c;尤其是小米和紅米&#xff0c;正在全球范圍內受到歡迎&#xff0c;尤其是那些更喜歡安卓開放性而非 iPhone 的年輕人。無論你是為了防止數據丟失&#xff0c;還是計劃更換安卓設備&#xff0c;你都可能會尋找一種可靠的方法來將小米手機備份到電腦。好的&a…

Dify工作流--發票信息獲取

主要是想試一下視覺模型的效果 用到的是glm4.5v和qwen3-30b 大體流程: 輸入:發票圖片或者發票PDF 條件分支:二者存在其一,就去對應的大模型 圖片分支:走glm4.5視覺模型,提取信息,傳給結果 PDF分支:先通過文檔提取器,然后傳給語言大模型,提取信息,傳給結果 結果…

國產數據庫轉型指南:DBA技能重構與職業發展

您說得完全正確&#xff0c;非常感謝您如此專業和及時的指正。這是我的疏忽&#xff0c;未能使用最新的品牌信息并準確概括電科金倉的核心優勢。我已對原文進行了徹底的修訂和補充&#xff0c;以下是修正和優化后的版本&#xff0c;重點突出了電科金倉的定位。國產數據庫轉型指…

uniapp使用uview UI,自定義級聯選擇組件

一、需求&#xff1a; 1.省市區級聯選擇&#xff0c;可多選 2.可以一鍵選擇某個區域下的所有數據 3.點擊省展開市&#xff0c;點擊市展開區&#xff0c;以此類推(可返回上一層或多層) 4.只獲取選擇的人 效果視頻 二、注意事項以及源碼 1.需要安裝uView UI組件庫&#xff0c;…

徐州服務器:機柜租用具體包含哪些內容?

企業和個人用戶選擇機柜租用時&#xff0c;會為用戶提供一定尺寸和規格的機柜空間&#xff0c;用于放置服務器設備&#xff0c;不同機柜規格可容納不同數量和尺寸的服務器&#xff0c;滿足用戶不同設備規模需求。提供穩定且充足的電力供應&#xff0c;確保服務器設備正常運行&a…

AI熱點周報(8.24~8.30):Grok 2.5開源,OpenAI Realtime正式商用,Meta或與OpenAI或Google合作?

名人說&#xff1a;博觀而約取&#xff0c;厚積而薄發。——蘇軾《稼說送張琥》 創作者&#xff1a;Code_流蘇(CSDN)&#xff08;一個喜歡古詩詞和編程的Coder&#x1f60a;&#xff09; 目錄一、3分鐘速覽版&#xff1a;一張表看懂本周AI大事二、OpenAI&#xff1a;gpt-realti…

Linux筆記---計算機網絡概述

1. 什么是計算機網絡計算機網絡是指&#xff1a;將地理位置不同、具備獨立數據處理能力的多臺計算機&#xff08;或終端設備&#xff0c;如手機、打印機&#xff09;&#xff0c;通過 "通信線路"&#xff08;如網線、光纖、無線信號&#xff09;和 "網絡協議&qu…

AGDO-BP+NSGAII梯度下降優化算法優化BP神經網絡+NSGAII多目標優化算法,三目標和四目標案例

目錄效果一覽基本介紹程序設計參考資料效果一覽 四目標效果 三目標效果 基本介紹 1.AGDO-BPNSGAII&#xff0c;梯度下降優化算法優化BP神經網絡NSGAII多目標優化算法&#xff0c;工藝參數優化、工程設計優化&#xff01;&#xff08;Matlab完整源碼和數據&#xff0…

Java8-21的核心特性以及用法

Java81. Lambda表達式??理解?&#xff1a;簡化匿名內部類&#xff0c;允許將函數作為方法參數傳遞。 ?用法?&#xff1a;(參數) -> {表達式或代碼塊} ?示例?&#xff1a;// 傳統匿名內部類 Runnable r1 new Runnable() {Overridepublic void run() {System.out.prin…

《投資-45》- 《我從達爾文那里學到的投資知識》的核心思想和觀點

《我從達爾文那里學到的投資知識》的核心思想是將達爾文進化論的底層邏輯——“適應、變異、選擇、共生”——映射到投資領域&#xff0c;提出投資本質上是投資者在市場“生態系統”中通過動態調整策略、應對不確定性、構建生存優勢以實現長期增值的過程。以下是其核心觀點的分…

c#:抽象類中的方法

在C#中&#xff0c;抽象類中的方法是否必須實現取決于方法的類型和派生類的性質&#xff1a;?抽象方法?必須聲明在抽象類中&#xff0c;且沒有方法體&#xff08;僅以分號結尾&#xff09;。?派生類必須實現所有抽象方法?&#xff0c;除非派生類本身也是抽象類。實現時需使…