[Terence Tao訪談] AlphaProof系統 | AI嗅覺 | 研究生學習 | 龐加萊猜想(高維)

玩這些有趣的東西。通常情況下什么也得不到，你必須學會說：“好吧，再試一次，什么都沒發生，我會繼續前進。”

DeepMind的AlphaProof系統

Q：DeepMind的AlphaProof系統是通過強化學習訓練的，使用的數據包括國際數學奧林匹克(IMO)問題在Lean中成功和失敗的形式化證明，這屬于較高水平的高中數學問題。

這個系統怎么樣？證明高中級別問題的系統與研究生級別問題之間存在著怎樣的差距？

陶哲軒：隨著證明中步驟數量的增加，難度會呈指數級增長，這是一次組合式爆炸。

大型語言模型的問題在于它們會犯錯誤：如果一個證明有20個步驟，而你的模型在每個步驟中有10%的失敗率去走向錯誤的方向，真正到達終點的可能性很小。

圖片來源于AlphaProof項目頁

Lex Fridman：稍微扯一下題外話——從自然語言映射到形式程序的問題有多難？

陶哲軒：是的這實際上非常難，自然語言有很強的容錯能力，你可以犯一些小的語法錯誤，第二語言的說話者還是能大致理解你在說什么；但是形式語言，如果你有一個小地方出錯，整個事情就都成了無稽之談。甚至形式到形式都非常困難，不同語言中存在不同的、互不相容的序言，有Lean、Coq和Isabelle等等，即使從形式語言轉換到形式語言，依然是一個基本尚未解決的問題。

Lex Fridman：但是一旦你有了他們使用的非正式語言，他們就會用 RL 訓練模型，用類似于AlphaZero的模型去嘗試提出證據。他們還有一個模型，我相信是用于幾何問題的獨立模型。那么這個系統給你留下什么樣的印象呢？你怎么看待這些差距？

陶哲軒：我們之前討論過，隨著時間的推移，一些令人驚嘆的事情會變得有些常態化。當然，幾何是一個可以解決的問題，這些都是很偉大的作品，展示了什么是可能的。但這個方法目前還不具備可擴展性，Google服務器時間要用三天時間去解決一道高中數學題。隨著復雜性的指數級增加，這并不是一個可拓展的前景。

Lex Fridman：我們需要提一下他們獲得了銀牌。

陶哲軒：只是相當于銀牌表現。首先，他們花費的時間遠超規定時限，而且是在人類協助下完成形式化驗證的。但既然解決方案獲得了滿分評定——我想這是因為通過了形式化驗證——所以這種評判應該算是公平的。

事實上已經有人提議要舉辦一場”AI數學奧林匹克競賽”。具體設想是：在人類選手參加正式奧林匹克競賽的同時，AI系統也將同步獲得相同的賽題，并在相同的時間限制內作答，所有解答結果都將由同一批評委進行評分。這意味著AI必須使用自然語言而不是形式化語言來完成證明。

但我希望下一屆IMO比賽不會出現這種情況——這次IMO的表現確實在時間限制內不夠理想。不過，在一些規模較小的競賽中，比如那些只需要給出具體數字答案而非完整證明過程的比賽，AI的表現其實要好得多。因為對于這類有明確數值答案的問題，強化學習會更容易一些：你得到了正確答案、你得到了錯誤答案，這是非常明確的信號。

但長篇證明要么必須正式，這樣Lean系統才能給出贊同或反對的反饋；要么就是非正式的，需要人類來評分。

如果你試圖進行數十億次的強化學習運行，你知道，你無法雇傭足夠多的人來對這些進行評分。實際上，光是基于常規文本進行強化學習對當前的語言模型來說已經很有挑戰性了，而現在如果不僅要雇傭人工審核員給出好評或差評，還要對輸出結果進行嚴格的數學驗證……這樣做的成本實在太高了。

“嗅覺”是人類特有的優勢

Q：人類在數學領域最獨特的能力是什么？哪些方面是AI短期內難以突破的？

陶哲軒：我認為數學家們所做的工作的性質隨著時間的推移發生了很大的變化。

一千年前，數學家需要計算復活節的日期——那涉及極其復雜的運算，但這些計算早在一個世紀前就被自動化取代了。他們過去還要運用球面三角學進行航海導航，完成從舊大陸到新大陸的復雜計算，這些也都實現了自動化。

即使在AI出現之前，像Wolfram Alpha這樣的工具（雖然它不是語言模型）已經能解決許多本科階段的數學問題。在計算層面，驗證常規問題——比如給出一個偏微分方程題目，要求AI用20種標準解法的其中一種求解——AI可以回答：”我已嘗試全部20種方法，這里有100種不同的排列，這是我的結果。”這類任務AI將表現得非常出色。一旦你解決了其中一個問題，就可以讓AI攻擊100個相似的變體。

但人類仍然保有獨特的優勢：當前AI最大的短板在于，當它走錯路時它可能會說：”我要把問題拆分為兩種情況，嘗試這個技巧。”對于簡單問題，運氣好時這個方法有效；但有時它提出的解題思路完全是胡說八道，即使看上去像模像樣。這是語言模型生成數學內容很讓人頭疼的地方。

確實，人類撰寫的低質量數學內容我們也見過不少，比如缺乏正規訓練者的投稿。但糟糕的人類證明通常能快速識別，它會犯一些非常基本的錯誤；而AI生成的證明卻可能表面完美無瑕，因為強化學習實際上就是訓練它們去生成看起來像是正確的文本，這對許多應用場景來說這就已經夠了。所以錯誤往往非常隱蔽，等你找到它們時，又會發現它們真的很愚蠢，因為沒有人會真的犯這種錯誤。

Lex Fridman：是的，這在編程環境下非常令人沮喪，因為我自己也經常編程。當人類寫低質量代碼時，有一種叫做代碼異味（code smell）的東西，你可以立刻看出來異常跡象。

但AI生成的代碼從表面看起來完美規范，直到最后你才發現其中隱藏著極其明顯的愚蠢錯誤，偏偏這些錯誤還藏在看似良好的代碼結構里。

陶哲軒：嗅覺是人類特有的一種東西，嗯，還有一種比喻性的數學嗅覺，但這個我們不清楚如何讓 AI 復制它。Alpha Zero等程序在圍棋和國際象棋等領域取得了一定的進展，在某種程度上，它們已經發展出了一種對圍棋和國際象棋局勢的嗅覺，它們知道這個局勢對白方有利，對黑方有利。即使無法闡明原因，僅僅擁有這種“嗅覺”就讓它們能夠制定策略。

所以如果人工智能獲得某種評估特定證明策略可行性的能力，你可以說：“我打算把這個問題分解成兩個小子任務”，它們可以說：“嗯，這個看起來不錯，這兩個子任務看起來比你的主要任務更簡單，而且它們仍然有很好的機會實現，值得一試。”或者“哦不，你讓問題變得更糟糕了，因為這兩個子問題實際上比你原本的問題還要難。”

這種情況實際上經常發生，當你嘗試一些隨機的方法，很容易把問題變得更加復雜而不是變得簡單。所以，如果AI能夠擁有“嗅覺”，那它們也許可以開始和人類水平的數學家媲美。

Lex Fridman：這是一個難題，但不是競爭，而是合作。我們假設一下，如果我給你一個能夠做到你某些方面的能力的預言機，你可以與之合作，你希望那個預言機能做什么？你是否會希望它成為一種驗證器，去檢查代碼異味，就像你本人那樣？陶教授，這是一個充滿希望、富有成果的方向。或者你想讓它生成可能的證明，然后由你來看哪一個是正確的？你喜歡的話，或許還可以生成不同的表現形式，用完全不同的方式去看待同一個問題？

陶哲軒：是的，我認為以上選項都有可能，很多時候我們不知道如何使用這些工具，因為這是一種范式。過去我們從未遇到過如此矛盾的AI系統——它們既能理解復雜指令并處理海量任務，又會在細微處表現出令人不安的不穩定性，同時卻仍能產出相當優質的結果。這種既強大又不可靠的特性組合確實耐人尋味。

這就像同時具備了兩種特質的混合體：一方面如同可以深入交流的研究助手，另一方面又像傳統軟件工具那樣具備規模化運行能力，只不過前者無法規模化，后者又太過局限。

Tim Gowers早在2000年就預見到了這種數學協作場景，說來有趣，距今正好二十多年。他在文章中設想了一個未來數學助手與人類數學家的對話場景：人類提出創意構想，AI負責評估可行性；AI也會主動建議”需要驗證100個特例嗎”；或是實時反饋”你說命題對所有n成立，但我發現n=46時出現反例”。這種自由流動的協作模式正是我們所期待的：人類和AI雙方隨機提出想法或計算需求，沒有預設路徑。（流動性的協作可以聯想到之前提到的自主性滑塊

我測試過這種協作方式，故意用已知答案的問題與AI合作。但當我建議使用某種方法時，AI往往會另辟蹊徑。有時它能發現精妙的論證思路，有時卻會完全偏離正軌，這時就不得不打斷：”不對不對，這個方向錯了，使用這個方法。”好的，它可能就會開始使用我提出的方法，然后回到我們期望看到的路徑。但你必須一直去引導它，才能讓它走上你想要的路徑，讓它更像你，最終才能強迫它給出你想要的證明。

就像是要趕一只貓一樣，嗯，我需要付出的個人努力，不僅在于引導它，還要去檢查它的輸出，因為它看上去能成功但實際上并不可以。這比自己做還要累得多，但這就是當前最先進的水平。

Lex Fridman：我想知道是否會發生一個階段性的轉變，以至于不再感覺像是在趕貓，也許它的發展速度會讓我們感到驚訝。

陶哲軒：我相信會。在形式化方面，我之前提到過，形式化一個證明比用手寫要花費 10 倍的時間。但用這些現代 AI 以及更好的工具，Lean的開發者們正在做得更加出色，他們不斷增加更多功能并使其更用戶友好，這個時間正在從9倍降到8倍再降到7倍……好的，這沒什么大不了，但終有一天它會低于1。這就是一個階段性的轉變。

因為當你寫論文的時候，它忽然就有意義了。先用Lean語言完成證明，或是通過與AI實時協作完成內容，這個流程將變得理所當然，而期刊審稿流程也將隨之革新：對于已經通過Lean形式化驗證的論文，審稿人只需要評估研究成果的重要性和它與現有文獻的關聯性，而不需要過度擔心證明過程的正確性，因為這些都是已被系統認證過的。

數學領域的論文正在變得越來越長，實際上，除非它們非常重要，否則為那些真正長的論文找到好的審稿人越來越難。這確實是一個問題，而形式化恰好在合適的時間出現，使得這種情況變得更容易猜測。

Lex Fridman：隨著工具鏈的完善和其他相關因素的發展，我們可以預見Mathlib這類數學知識庫很可能呈現指數級增長，這是一種良性循環。

陶哲軒：是的，我的意思是，LaTeX 如今已成為所有數學家使用的標準排版語言。過去人們使用各種文字處理器和打字機，但在某個時間點，LaTeX比其他所有的競爭對手都更容易使用，短短幾年內就完成了整個學術界的徹底轉換，這種轉變堪稱戲劇性。

AI和菲爾茲獎的距離：差一個研究生

Q：距離 AI 系統作為合作者參與獲得菲爾茲獎級別證明的研究，我們還有多少年？換句話說，AI 何時能達到這種頂尖協作水平？

陶哲軒：這取決于AI和人類協作的水平。

Lex Fridman：我的意思是，它是否值得獲得菲爾茲獎。

陶哲軒：各占一半吧，如果這是一篇獲獎論文，其中包含一些 AI 系統協助寫作的話，你知道，就比如說，僅是完成順序就已經…我使用它來加速我自己的寫作。比如說，你可以有一個定理，有一個證明，證明分為三個情況，我寫下第一個情況的證明，而自動補全建議：“現在，這里是第二個情況證明該如何進行”，并且它完全正確，太棒了，節省了我大約5到10分鐘的打字時間。

Lex Fridman：但在那種情況下，AI系統并不會獲得菲爾茲獎。我們是談論20年、50年還是100年？你覺得呢？好吧。

陶哲軒：我曾經發表過一個預測，到2026年——也就是明年——將會出現AI和數學的合作，不是獲得菲爾茲獎的那種，而是實際研究水平的數學，比如一些由 AI 部分生成的、已發表的想法。也可能不是想法本身，但至少是一些計算或者驗證工作。

Lex Fridman：這種情況已經發生了嗎？

陶哲軒：已經發生過了，是的。有些問題是通過復雜的流程解決的，即與 AI 對話來提出想法，然后人類去嘗試，盡管它有可能不適用。

Lex Fridman：但它會提出一個不同的想法。

陶哲軒：確實有一些數學成果，只有在人類數學家和AI的共同參與下才得以完成，但他們的功勞很難理清。我的意思是，盡管這些AI工具并不能復制數學運算所需要的所有技能，但它們可以復制其中的相當一部分，大概30%到40%，它們可以填補某些方面的空白。

編程就是一個很好的例子：用Python編程對我來講是一件很麻煩的事，畢竟我不是一個專業的程序員，但是AI大大降低了做這件事情的摩擦成本，它為我填補了這個空白。

現在AI在文獻綜述方面已經做得相當不錯了，但仍然存在一個幻覺的問題，你知道，有些時候它會給出一些完全不存在的參考文獻。但我認為這是一個能夠解決的問題，通過用正確的方式進行訓練等等，或者可以使用互聯網進行驗證，在幾年之內應該就可以到達這樣的水平：當你需要一個引理時，你可以問AI，之前是否有人證明過這個引理？AI就會進行一次高級的網絡搜索，然后告訴你，這里有6篇論文提到了類似的情況。

我的意思是你現在就可以問它，它會給你6篇論文，但其中可能只有一篇是真實且與問題相關的、一篇真實但與問題無關，剩下4篇完全是憑空捏造出來的。AI現在確實有非零的成功率，但存在太多的垃圾信息，信號與噪聲的比率太差了，以至于它只有在你已經大致了解需要的關系時才最有幫助。

嗯，你只需要被提示、被提醒一篇已經潛藏在你記憶中的論文，而不是幫助你發現那些你甚至沒有意識到但卻是正確引用的新內容。但是當它做到時，那個正確的選項會被埋沒在其他一系列的糟糕選項中。

（所以說 AI 目前還是有很多幻覺的，人類的快速學習和涉獵，還是很重要的，這樣才可以引導和判斷 AI 生成好的內容）

Lex Fridman：AI能夠自動生成一個靠譜的相關工作部分是一件很美妙的事情，它可能會帶來另一個階段的變化，因為它能正確地歸功于人，并幫人類跳出“是的”這個思維定式。

陶哲軒：現在有一個很大的障礙需要克服：這就像自動駕駛汽車，你知道，它的安全邊際必須非常高才行。所以，是的，所有AI應用都存在“最后一公里”問題，它們可以開發出20%到80%的時間里都有效的工具，但這仍然不夠，事實上，在某些方面甚至更加糟糕。

Lex Fridman：換個方式來問菲爾茲獎的問題，你認為在哪一天它會讓你真正地感到驚訝？當你讀到頭條新聞關于AI做了某件事的報道，一種真正的突破，讓人驚呼”這是菲爾茲獎級別”，就像當年AlphaZero在圍棋領域的突破那樣。

陶哲軒：大概是十年，我能看到它做出兩個人們認為無關的事情之間的猜想，并且實際上很有可能正確并且有意義。目前的模型面臨著很多困難，我的意思是，舉個例子，物理學家夢想讓AI發現新的物理學定律，你知道，他們的夢想就是你只管將所有的數據喂給AI，它就能夠給出我們以前從未見過的新的規律。但實際上，目前的尖端技術甚至難以從數據里發現舊的物理規律，即使它發現了，也存在很嚴重的污染，也就是說它之所以能夠做到，只是因為它已經在某個訓練數據中得到了這個舊規律，比如說玻意耳定律，或者任何你試圖重構的規律。

部分原因在于，我們并沒有針對于此的正確類型的訓練數據，對于物理定律來說，我們并沒有一百萬個不同的宇宙，每個宇宙包含一百萬條自然定律。

雖然我們已經發表了很多人們能夠證明的東西，以及最終被驗證的猜想，或者產生的反例，但是我們沒有關于那些被提出但很快被意識到是錯誤猜想的數據，然后人們說，哦，我們應該實際上改變我們的主張，以這種方式修改它，使其更具合理性。一個像這樣的試錯過程是人類數學發現中真正不可或缺的一部分，但我們不記錄它，因為它很尷尬。

呃，我們會犯錯，但我們只愿意發表我們的成功，所以人工智能沒有辦法訪問這些數據來訓練。我有時候開玩笑說，AI得去讀個研究生，真的，你知道得去上研究生課程、做作業、去辦公室、犯錯，嗯，得到關于如何改正錯誤的建議并從中學習。

龐加萊猜想：想象一個被揉皺并扭曲的球

Q：Grigori Perelman在七年時間里幾乎不與外界接觸，獨自解決了龐加萊猜想，這是個什么問題？也許再談談Grigori Perelman的這段經歷？

陶哲軒：好的，這是一個關于彎曲空間的問題，地球就是一個很好的例子。你可以想象一個二維曲面，它可能是一個帶洞的環面，也可能有很多洞，而且表面可能有多種先驗拓撲結構，即使你假設它是有界的、光滑的等等。我們已經弄清楚了如何對曲面進行分類，初步近似地看，一切都由一種被稱為虧格的屬性決定，即這個曲面上有多少個洞：球體的虧格為0，環面的虧格為1，以此類推。

區分這些二維曲面的一種方法是，球體具有一種被稱為單連通性的特性，意味著如果你在球體上取任何閉合環路，它都可以被收縮成一個點，同時保持在曲面上，而環面并不具備這種性質。如果你在一個環面的外部取一根繞著環面的繩索，它無法通過環面的那個洞，也就沒有辦法閉合并收縮成一個點。球體是唯一具有這種可收縮性性質的曲面，直到球面經過連續變形。這就是我想稱之為與球面拓撲等價的物體。

龐加萊在更高的維度上提出了相同的問題，但這變得難以可視化，因為你可以在三維空間中想象一個曲面，但作為一個彎曲的自由空間，我們對四維空間沒有很好的直觀理解，無法將三維空間嵌入到四維空間中，我們需要五個、六個甚至更高維度的空間。但無論如何，從數學上講，你仍然可以提出這個問題：如果你有一個有界的三維空間，它還具有這個單連通的性質，即每一個閉合曲線都可以收縮，你能把它變成一個三維球體的版本嗎？這就是龐加萊猜想。

奇怪的是，在四維、五維甚至更高維度上，這個問題反而更容易解決——它首先在更高的維度上得到了解決——可能是因為某種程度上，它有更多的空間來變形，更容易把事物變成一個球體。但三維情況下真的很難，人們嘗試了多種方法，比如說某種剖分方法，把曲面分割成小三角形或四面體，然后根據這些面面如何相互作用來進行推導；或者也有代數方法，使用各種代數對象，比如所謂的“基本群”，你可以將它們附加到同調、上同調、以及所有這些非常高級的工具上。它們也沒能完全奏效。

但是Richard Hamilton提出了一個微偏分方程（PDE）的方法，問題是這樣的，你有一個球體，但它的呈現方式非常的奇怪：想象一個被揉皺并扭曲的球，讓人看不出來那是個球。如果你有一個某種意義上是變形球體的曲面，你可以將它想象成一個氣球，試著給它充氣，隨著空氣的注入，它的皺紋會被撫平，就變成了一個漂亮的球體；但如果它是個環面或者類似的東西，它就會在某個點卡住。當內環收縮到零時，中間會得到一個奇點，并且無法再繼續膨脹或者流動了。Richard Hamilton創造了這個流程，現在被稱為里奇流（Ricci flow），這是一種把任意曲面或空間平滑化、變得越來越圓的方法，讓它看起來像個球體。這個過程要么會形成一個球體，要么就產生一個奇點。就像是偏微分方程，它們要么具有全局規劃性，要么就具有有限時間爆炸性，基本上這幾乎是完全相同的事情。一切都是相互關聯的。

Richard Hamilton指出，對于二維曲面，如果能保持永不形成奇點，就永遠不會遇到麻煩，它會一直流動，并且形成一個球體，于是他得到了二維結果的一個新的證明。

Lex Fridman：這是一個很棒的解釋，對于里奇流及其在此背景下的應用。對于2D情況來說，這里的數學有多難？

陶哲軒：這些是非常復雜的方程，與愛因斯坦方程不相上下，額，略微簡單一些，但它們被認為是難以求解的非線性方程。2D中有很多特殊技巧可以提供幫助，但問題在于，在3D中這個方程實際上是超臨界（supercritical ）的。與納維-斯托克斯方程相同的問題，隨著爆發性增長，曲率可能會集中在越來越小的區域，并且看起來越來越非線性，情況變得越來越糟。

△納維-斯托克斯方程的一般形式

可能會出現各種各樣的奇點，其中一些可能存在于那些被稱為“脖子夾”（neck pinchers）的、表面像杠鈴一樣的地方，并且在某一點收縮；有些奇點足夠簡單，你可以從中間剪開，然后就能把一個表面變成兩個，并分別演化它們；但也存在這樣的可能性：會出現一種非常棘手的像打了結一樣的奇點，沒辦法對它進行任何“手術”。所以就需要對所有的奇點進行分類，比如知道事情可能會出錯的所有方法是什么。

Perelman首先做的是把問題從超臨界問題過渡到臨界問題，像我之前說過能源的發明，哈密頓量闡明了牛頓力學。他介紹了一些概念，現在稱為佩雷爾曼減少體積（Perelman’s reduced volume）以及佩雷爾曼的熵（Perelman’s entropy），并引入了新的量，比如能量，這些量在每個尺度上都保持一致。非線性實際上突然看起來不再像以前那么可怕了。

△Grisha Perelman證明龐加萊猜想的論文

他仍然需要分析奇點這一關鍵問題——這本身也是一個類似的問題——就難度上，和我所研究的波映射問題相當。所以Perelman設法對所有奇點進行了分類，并展示如何對每種情況進行處理。通過這種方式，他解決了龐加萊猜想。這包含了很多雄心勃勃的舉措，今天的大語言模型都沒辦法做到。我的意思是，我充其量只能想象一個模型會將這個想法在數百種嘗試方案中提出，但除此之外的99個將會是徹底的死路一條，而你只有在經過幾個月的工作之后才能發現。Perelman肯定感覺到這是正確的道路才會去追求，因為從A到B要花費好幾年的時間。

Lex Fridman：嚴格從數學角度來說，或者更廣泛地，從流程上來說，你也做過類似困難的事情。你能從Perelman經歷的過程中推斷出什么？因為他是獨自一人去完成這件事的。在這樣的過程中會遇到哪些低谷？就像人工智能不知道自己什么時候會失敗一樣，當你坐在辦公室里，意識到過去的幾天甚至幾周所做的事情是個失敗的時候，你會作何反應？

陶哲軒：嗯，對我來說，我會換個問題。就像我說的，我是一只狐貍而不是一只刺猬。

Lex Fridman：但這是合理的，你可以休息一下，離開，去研究不同的問題。

陶哲軒：是的，你也可以修改這個問題，我的意思是，你可以去“作弊”，如果有什么東西阻礙了你，一些不好的情況不斷出現，你的工具不起作用什么的……你可以假設按理來講這種糟糕的情況不會發生，進行一些神奇的思考，從戰略上來講看看其它的論點是否成立。如果你的方法存在多個問題，那么你有可能就會放棄，但如果這是唯一的問題，其他的一切都順利的話——那么它仍然值得挑戰，你可以進行一些前方偵查什么的。

有時候犯錯誤甚至是有益的，我有一個項目確實因此贏得了一些獎項。和其他四個人一起，我們再次研究了這個PDE問題，實際上這又是一個爆破正則的問題，這種問題被認為非常困難。另一位菲爾茲獎得主Jean Bourgain曾經研究過這種問題的特殊情況，但他沒能解決一般情況，而我們研究這個問題兩個月，以為我們解決了它。我們作出了一個可愛的論證認為一切都吻合，為此我們很興奮，我們計劃舉行慶祝活動，讓大家聚在一起喝點香檳什么的。我們開始寫它，然后我們中的其中一個人——不是我——另一位合著者說：“哦！在這個引理中，我們必須估算這個展開式中出現的13項，我們估算了其中的12項，但我們的筆記里卻找不到第13項，有人能找到它嗎？”然后我說：“好的，我會看看這個。”結果，好吧，我們完全忽略了這一項，并且這一項變得更糟糕了，比其他12項加起來還要糟糕。

事實上，我們沒辦法估算這個第13項，我們又嘗試了幾個月，嘗試了幾乎所有不同的排列組合，總有一個東西讓我們無法控制。這非常讓人沮喪。但因為我們已經投入了好幾個月，并為此付出了好幾個月的努力，我們依然在堅持。我們嘗試了越來越絕望的、瘋狂的事情，兩年以后，我們找到了另外的一種方法，和我們最初的設想有些不同，這種方法并沒有產生這些有問題的項，而是確實解決了這個問題。所以我們用了兩年的時間解決了這個問題。但如果我們沒有那個看似即將解決問題的虛假希望，我們可能在第二個月左右就放棄，并著手去解決一個更簡單的問題了。如果我們知道要用2年的時間，我也不確定我們還會不會啟動這個項目。

有時候這些不正確的——就像哥倫布在新大陸航行一樣——這是一個測量地球大小的錯誤版本，他以為他會找到一條通往印度的新的貿易曲線，至少他在招股說明書上是這樣宣傳的，我的意思是，它實際上可能對此心知肚明。

Q：僅從心理因素來看，你有沒有產生過最讓你感到無措的自我懷疑？

Lex Fridman：感覺數學實在是太令人著迷了，當你在某個問題上投入太多精力但結果卻是錯誤的時候，它可能會擊潰你。就像是，國際象棋也擊潰了一些人。

陶哲軒：我認為不同的數學家對數學有著不同的情感投入程度，有些人認為這只是個工作，你遇到了問題，你可以不解決，而是繼續下一個，所以你總是可以繼續投入另一個問題，這減少了情感上的聯系。還有一些情況會產生一些被稱為數學病的問題，就是他們會只抓住那個問題不放，花費數年只思考那個問題，即使他們的職業生涯會因此受損。但他們說：“好吧，但這是個大突破，一旦我解決了這個問題，它將彌補所有失去機會的歲月。”這種心態偶爾確實有效，但我講真不推薦給沒有毅力的人。

我從來沒有對任何一個問題投入過多精力，一個幫助我們的點是，我們不需要提前明確我們的問題。當我們提交研究提案時，我們會說我們將研究這一系列問題，但即使我們不確定五年內我肯定會提供所有這些問題的證明，而是承諾取得一些進展或發現一些有趣的現象。也許你沒能解決那個問題，但你發現了一個相關的、你可以對其說些新東西的問題，而那是一個更可行的任務。

（不用在一棵樹上吊死）

加法和乘法都簡單，但是合在一起……

Q：有沒有一個一直困擾著你們的問題？像孿生素數猜想、黎曼猜想、克拉茲猜想？

陶哲軒：孿生素數，聽起來……好吧，再說，我的意思是，像黎曼猜想一樣，那真是遙不可及，甚至完全沒有可行的途徑。即使我使用了所有我知道的作弊手段，在這個問題里也依然無法從A到B。我認為首先需要在數學的其他領域取得突破，然后有人要認識到那個突破是可以運用于這個問題的。

Lex Fridman：所以我們應該后退一步，只討論素數。它們通常被稱為數學的原子。你能談談這些原子提供的結構嗎？

陶哲軒：自然數有兩種基本運算：加法和乘法。所以如果你想生成自然數，你可以做兩件事之一：你可以從1開始，一次次地加1，這樣就生成了自然數，所以從加法角度看，它們很容易生成1、2、3、4、5；或者你可以取質數，如果你想從乘法角度生成，你可以取所有質數，2、3、5、7，然后把它們全部乘在一起。這樣你就得到可能除了1以外所有自然數。所以從加法和乘法角度看，自然數有兩種不同的思考方式。單獨來看，它們都不算太難，關于自然數的任何問題，如果是只涉及加法或乘法的，都相對容易解決。

令人沮喪的是，當你把這兩者結合起來，問題忽然就變得極其豐富……我的意思是，我們知道數論中有一些命題實際上是不可判定的。像是某些多元多項式方程是否存在自然數解的問題，它們的答案取決于數學基礎命題的不可判定性——比如數學公理本身的一致性。

但即使是最簡單的問題，把一些乘法和加法運算結合起來，比如在素數上做一些附加操作，像是移動2位。分別來說我們都很了解，但如果你問當你平移一個素數兩位時，能否得到一個另素數？或者你能多久得到另一個素數？將兩者聯系起來竟然變得如此困難。

Lex Fridman：孿生素數猜想就是這樣的，它假設存在無限多對相差為2的素數。有趣的是，你在回答這些種類繁多的復雜問題時取得了非常成功的進展，比如你提到的格林-陶定理，它證明了素數序列包含任意長的等差數列。你能證明出這樣的定理，真是令人難以置信。

陶哲軒：是的。所以我們意識到，這種類型研究的重點是不同的模式具有不同級別的不可摧毀性。

孿生素數問題的難點在于，如果你把世界上所有的素數都列出來，3、5、7、11 等等，其中有一些是成對的，比如 11 和 13 是一對孿生素數，還有其他孿生素數等等。如果你愿意的話，你可以輕松地編輯素數以擺脫這些孿生素數。雖然孿生素數是無窮多的，但它們在素數里實際上相當稀疏，一開始確實有不少，但一旦到了數百萬、數萬億級別，它們就變得越來越稀少。

實際上，如果有人能夠訪問素數數據庫，他們只需在這里或那里刪除幾個素數，就可以讓孿生素數猜想成為錯誤。只需要刪除0.01%的素數或者類似的什么，真是明智之舉。

因此，你可以提供一個經過審查的素數數據庫，它通過所有關于素數的統計測試、遵循多項式定理和其他質數效應，但不再包含任何孿生素數。這對于孿生素數猜想來說是一個真正的障礙，意味著任何旨在在實際素數中找到孿生素數的證明策略，在應用于這些稍作修改的素數時都必須失敗。因此，這必定是素數中某種非常微妙、精細的特征，而不僅僅是通過整體統計分析就能得到的。

另一方面，算術級數被證明要穩健得多。你可以取素數，實際上可以排除 99%的素數，你可以選擇任意90個參與者。結果發現，我們另一個證明是，你仍然可以得到算術級數。算術級數非常多，它們就像蟑螂一樣。

Lex Fridman：對于不了解的人來說，算術級數是一系列相差某個固定值的數。

陶哲軒：是的。但它又像是那種無限猴子現象（一只猴子在無限時間內隨機獨立地敲擊打字機鍵盤上的按鍵，幾乎肯定會打出任何給定的文本），對于任何固定長度的集合，你不會得到任意長度的進展，只會得到相當短的進展。

Lex Fridman：但你說孿生素數不是無限猴子現象。我的意思是，這是一只非常狡猾的猴子，但它仍然是一種無限猴子現象。

陶哲軒：如果素數真的是隨機的，這些素數是由猴子生成的，那么事實上無限猴子定理就是這樣的。

Lex Fridman：但你說是孿生素數，你不能使用同樣的工具。它看起來幾乎不是隨機的。

陶哲軒：嗯，我們不知道。我們相信素數的表現像是一個隨機集合。所以我們關心孿生素數猜想的原因，是一個測試案例，測試我們是否能夠真正地、自信地、假設錯誤率為0%，說素數表現得像是一個隨機集合。我們已知的素數的隨機版本至少有100%的概率包含孿生素數，或者隨著你越來越向外延伸，概率趨于 100%。所以，我們相信素數是隨機的。算術級數之所以不可摧毀，是因為無論它看起來是隨機的還是周期性的結構，在這兩種情況下，算術級數都會出現，但原因不同。這就是這個定理的基本原理，有很多證據都證明了算術級數定理，它們都通過某種二分法得到證明：即你的集合要么是結構化的，要么是隨機的，在兩種情況下你都可以說些什么，然后你把兩者結合起來。

但在孿生素數中，如果素數是隨機的，那么你很高興，你就贏了。如果素數是結構化的，它們能夠以一種特定的方式結構化并消除孿生素數。我們不能排除這個陰謀。

Lex Fridman：但據我了解，你可以做到在K元組（K-tuple）版本上取得進展。

陶哲軒：是的。所以關于陰謀的一個有趣之處是，任何一個陰謀理論都很難被證偽。如果你相信世界是由蜥蜴統治的，你會說“那么這里有一些證據表明它不是由蜥蜴統治的。”嗯，但是那個證據也是蜥蜴的陰謀，你可能遇到過這種情況。幾乎沒有辦法可以明確排除陰謀，在數學上也是如此，一個完全致力于消除孿生素數的陰謀還必須滲透到數學的其他領域，但至少據我們所知，它可以保持一致。但有一個奇怪的現象，你可以用一個陰謀排除其他陰謀。所以如果世界是由蜥蜴統治的，它就不能同時是由外星人統治的，對吧？

所以一個不合理的事情很難被證偽，但多個不合理的事情就有工具了。比如我們知道存在無限多個素數，其中任意兩個素數的差值不超過……實際上，這個數字最高是246，存在一個界限。所以有孿生素數；有一種東西叫做表親素數（cousin primes），它們的差值為4；還有相差6的性感素數（sexy primes）——這個概念遠沒有其名稱所暗示的那么令人興奮。

你可以排除其中一個陰謀，可一旦你有 50 個陰謀，事實證明，你無法一次性排除所有的可能性。這需要這個陰謀空間里太多的能量。

Q：你是怎么做界限部分的？你是怎么為不同的素數發展界限的？

陶哲軒：所以這最終是基于一個被稱為鴿巢原理（the pigeonhole principle）的東西。鴿巢原理就是，如果你有若干只鴿子，并且它們都必須進入鴿巢，而鴿子數量多于鴿巢數量，那么至少有一個鴿巢里必須有至少兩只鴿子。所以必定有兩只鴿子彼此距離很近。比如，如果你有 100 個數字，它們都介于 1 到 1000 之間，那么其中兩個數字之間的距離最多為 10，因為你可以將 1 到 100 的數字分成 100 個鴿巢。假設你有 101 個數字，那么這 101 個數字中必定有兩個數字之間的距離小于 10，因為這兩個數字必須屬于同一個鴿巢。這是數學基本原理的基本特征。

鴿巢原理不能直接和素數一起使用，因為素數在向外延伸時會變得越來越稀疏，也就是說質數會變得越來越少。但事實證明，有一種方法可以給數字分配權重。有些數字算是準素數（almost primes ），但它們并非沒有除了自身和1以外的任何其他因數，只不過它們擁有的因數非常少。事實證明，我們對準素數比素數理解得更透徹。例如人們很早就知道存在孿生素數，這個問題已經被研究透了。所以準素數是我們能夠理解的東西。因此，你實際上可以將注意力集中在合適的準素數集合上。素數相對來講非常稀疏，相比之下，準素數的稀疏程度要低得多。

你可以構建一個準素數的集合，其中素數的密度大約是 1%，這能讓你有機會通過應用某種鴿巢原理來證明大約只有100個素數。但為了證明孿生素數猜想，你需要獲得素數的密度，在準素數內幾乎達到50%的閾值，一旦達到 50%，你就會得到孿生素數。但不幸的是，無論你選擇多么好的準素數集合，素數的密度永遠不會超過 50%，這就是所謂的“奇偶性壁壘”（the parity barrier）。我非常想攻克它，所以，我長遠的夢想之一是就找到一種方法來突破這個障礙，因為這將不僅解開孿生素數猜想，還能解開克拉茲猜想，和許多數論領域正在受阻的其它問題。因為我們的現有技術需要超越這個理論上的“奇偶性壁壘”，就像試圖超光速行駛一樣。

Lex Fridman：所以我們應該說孿生素數猜想是數學史上最大的問題之一，克拉茲猜想也是，它們感覺像是鄰居。有沒有哪天你覺得自己看到了解法？

陶哲軒：有的。有時你嘗試某種方法，它就會非常有效，你就會感受到像我們之前談到的數學氣味（mathematical smell）。當事情進展順利時，你會從經驗中學習，因為有一些困難是不得不去遭遇的。我的一位同事可能會這樣表達：如果你在紐約街頭被蒙上眼睛放進車里，在幾個小時后，你的眼罩被摘掉，發現你到了北京。我的意思是，這有點太容易了，不知道為什么并沒有跨越海洋，即使你不知道具體發生了什么，你會懷疑有些事情不對勁。

Lex Fridman：但這仍然在你腦海中，你是否每次都會回到素數領域看一會兒？

陶哲軒：是的，在我沒什么其他事情可做的時候——這種情況越來越少了，我現在有很多事情要處理——但當我有空閑時間，又不想做我的實際研究項目，也不想處理行政事務，或者不想為家人做些差事，我可以玩這些有趣的東西。通常情況下什么也得不到，你必須學會說：“好吧，再試一次，什么都沒發生，我會繼續前進。”偶爾我也會解決這些問題，或者有時就像你說的，你以為你解決了問題，然后你繼續研究可能 15 分鐘，然后你想到，“我應該檢查一下，這簡單得有點令人難以置信了。”通常都是這樣。

Lex Fridman：關于孿生素數和克拉茲猜想這些問題的解決時間，你的直覺是怎么看的？

陶哲軒：關于孿生素數，我認為我們將會不斷獲得更多進展。這確實至少需要10年，這個“奇偶性壁壘”是剩下的最大的難題，有更簡單的版本，我們已經非常接近這個猜想了。所以我認為在 10 年內我們將會有更多更接近的結果，但可能不會得到全部。孿生素數問題相對接近，但黎曼猜想，我一點頭緒也沒有，我的意思是，我想這是偶然發生的。

Lex Fridman：所以黎曼猜想是關于素數分布的更普遍的猜想，是吧？

陶哲軒：是的。這表明，在某種程度上只從乘性角度來看，對于只涉及乘法不涉及加法的問題，質數確實表現得像你希望的那樣隨機。

概率中存在一個現象稱為平方根抵消（square root cancellation），如果你想要調查美國民眾對某個問題的看法，并且只詢問一兩個選民，你可能會抽到一個糟糕的樣本，然后你會得到一個對整體平均值的非常不精確的測量。但如果你抽樣的人數越來越多，準確性就會越來越好，并且準確性隨著你抽樣人數的平方根而提高。如果你抽樣 1,000 人，你可以得到 2%或 3%的誤差范圍。在同樣的意義上，如果你以某種乘法性方式測量質數，你可以測量某種類型的統計數據，它被稱為黎曼zeta函數，并且上下波動。

但從某種意義上說，隨著你不斷取更多平均值、不斷進行更多采樣，波動應該會像隨機變量一樣減小。并且有一種非常精確的方法來量化這一點。

黎曼猜想以一種非常優雅的方式捕捉了這一點，但就像數學中的許多其他方法一樣，我們幾乎沒有工具來證明某件事真的表現得非常隨機。

這實際上不僅僅是一點點隨機，但這種平方根抵消要求其行為像一個真正隨機的集合一樣隨機。我們知道，對于與奇偶性校驗問題有關的事情，大多數的常用技術都無法解決。證明必須出乎意料，但沒有人提出過任何嚴肅的提議。正如我所說，有很多種方法可以解決，你可以稍微修改一下質數，就可以破壞黎曼猜想。它必須非常精細、你不能應用具有巨大誤差范圍的東西、它必須能夠勉強工作，所有的這些陷阱你都會遇到并且非常嫻熟地躲避。

Q：對你來說，素數最神秘的是什么？

陶哲軒：這是個好問題，從推測上來說，我們對素數有一個很好的模型。我的意思是它們具有某些規律，比如質數通常是奇數。但除了存在一些明顯的規律外，它們表現得非常隨機，只是假設它們會這樣表現。

所以有一個稱為 Cramér質數隨機模型的東西，在某個時間點之后，素數的表現就像一個隨機集合。這個模型還有各種細微的修改，但這是一個非常好的模型，它與數值相匹配，并告訴我們應該預測什么。就像是我告訴你可以完全肯定孿生素數猜想是正確的。隨機模型給出了極高的準確性，我只是無法證明這一點。我們的數學大多是為了解決包含規律的問題而優化的。而質數存在這種反模式，實際上幾乎所有事物都是這樣，但我們無法證明這一點。

我想質數是隨機的并不神秘，因為它們沒有必要有任何秘密模式。但神秘的是，究竟是什么機制真正迫使隨機性發生？這一點完全缺失。