六、deep research

這是 chatgpt 推出的功能,但我這里是免費用戶,一個月才有 5 次使用機會,而且使用的是輕量化模型版本,相對體驗上比較雞肋一些。
那這個深度思考研究是個什么東西呢?

根據 openai 對其的解釋是,它是一種專業的人工智能能力,利用網絡數據進行深入、多步驟的研究。基于 o3 推理模型(免費輕量版本應該是 o4-mini)進行了微調,能夠自主搜索并閱讀來自不同在線來源的信息。這使得它能夠針對復雜主題創建詳盡、有據可查且引用清晰的報告。
在場景上,它非常適合從事金融、科學和法律等領域高強度知識工作的人士,以及需要全面、精確和可靠研究的研究人員和精明的購物者。每項輸出都完整記錄,并清晰標注來源引用,便于驗證和參考信息。深度研究尤其擅長發現小眾、非直觀的信息,這些信息通常需要在多個網站上進行多步驟查找。
所以簡單來說,深度研究是網絡搜索與深度思考的結合體,經過長期研發才推出——模型會持續運行數十分鐘進行深度分析。
例如我們隨便問一個,關于高考結束后選專業的一個話題,例如,我們可以問,
作為即將高考結束的學子,在未來選專業上,計算機專業是否還是一個熱門專業,就業前景、壓力相比之下如何,在 AI 時代,計算機專業和數理統計等專業上應該做如何取舍,如果我考了 600 分,如果今年各高校錄取水平與 2024 年差不多的話,給出你的綜合性建議及理由。并且作為一個剛走出校園的高中生,如果未來想進入 AI 領域并打算深入下去,請你給出學業或有關 AI 學習的路線圖。

它首先會根據你的問題,羅列出一些需要你澄清的問題,就挨個回答一下就好了,然后它就開始進入漫長的搜索與思考過程,如果你點擊這個進度條,右側會給出他當前在搜索什么或者思考什么,大概來說就是根據問題,去搜索,然后思考整理答案,并自行發出新的搜索指令,重新整合,整體上就像我們不斷搜索網頁內容整理筆記,再搜索再整理的要給過程。
整個過程相對比較耗時,這期間你可以先去干點別的事情,不必在這里一直等待,



最后就會形成這樣的一份報告,并支持 pdf 下載,單從報告整體風格上看還是挺不錯的,從內容上看很一般,首先我假設的是 600分,給我推薦的都是 600 多的,然后跟我說不可及,難以進入(我用你說),然后專業對比上只有對比,沒有結論,學習路線圖也很官方,不具有可操作性,整體內容上我其實不太滿意。
需要強調的是由于免費版該功能背后使用的模型是輕量化,大概就是 o4-mini 吧,加上我的這些問題可能本身就搜不到太多好的內容或者它引用的網絡源質量偏低,大概結果就是這個樣子吧。
七、文件上傳

需要提醒的是,盡管這些工具在進行研究并整合信息,但并不能保證完全沒有幻覺內容。任何時候都可能出現虛假信息。它可能是編造的、虛構的,或者被模型誤解的。這就是為什么這些內容中的引用源非常重要。如果當前問題對你比較重要,你需要結合它給出的引用源資料,自行閱讀驗證一下,你當然也可以關掉該模式,切換到普通對話模型繼續就一些問題做出交流。
這里真正有趣的是,我們正在為大型語言模型提供額外的具體文檔,這些文檔可以在其上下文窗口中被引用。因此,模型不僅僅依賴于其參數中的知識和對世界的模糊理解,即不僅僅依賴于它"大腦"中的知識。我們實際上這些工具是在給它提供具體的文檔,就好像我們在回答某個問題時,會參考互聯網上的具體文件或類似資料。現在我們可以通過互聯網搜索或類似工具來實現這一點。
但我們也可以通過文件上傳的方式,直接為這些大語言模型提供具體的文檔。我發現這個功能在很多方面都非常實用。

這是 meta 最近剛出的一篇論文,還蠻有意思,我們以 chatgpt 為例,直接將這篇論文扔給它,要求其介紹下這篇論文的研究內容,研究過程,以及他們的一些研究發現和結論內容,并對一些關鍵術語進行解釋說明。

現在,當 chatgpt 收到這份文檔時,它們大概就會將 pdf 文件解析為文字,我猜它們可能會丟棄圖片等信息,后臺的處理方式很可能是將這份 PDF 文件轉換成一個文本文件,然后把這個文本文件加載到 token 窗口中。一旦它進入 token 窗口,就會進入工作記憶,我們就可以對其提問,就像圖中這個樣子,這樣一來可以輔助我們閱讀論文、讀書、讀報告等。
例如當你在讀一本小說或者學習某個專業領域的書籍,當你具有電子版的時候,你可以將書籍內容直接復制粘貼到對話框中,或者將 pdf 文件或內容截圖上傳進來,你都可以要求它首先給出概要或者內容梗概、重點知識抽取、人物關系圖等,當然,pdf 文件或內容截圖受限于文件解析的準確率或 OCR 識別準確率,當你能夠復制粘貼原文時,最好的方式是直接復制粘貼過來,這是一種非常高效的閱讀體驗。雖然某些書籍,可能已經存在于模型的內部知識中,但我們一再說明,這種記憶是模糊的,因此如果你手里有這本書的內容,那還是再給他上傳一遍吧。
[!warning]
另外需要注意的是,不要輕易上傳自己的個人資料,如果確實需要模型幫你做一些事情,請注意脫敏,不要傻乎乎的什么都上傳
八、Python 解釋器
這雖然會涉及到編程,但 AI 時代,即便不是程序員,了解一些基礎的編程內容也是很有益的,尤其是像 python 這種入門學習門檻很低的編程語言。
Python 解釋器,基本上就是讓大語言模型能夠使用和編寫計算機程序。因此,大型語言模型不再直接給出答案,而是具備了編寫計算機程序的能力,并能輸出特殊 token。這些 token 會被 chatgpt 應用識別為——嘿,這不是給人看的。這實際上是在聲明:我在此輸出的所有內容都是計算機程序,請去執行它并把運行結果反饋給我。這就是語言模型與 Python 等編程語言的整合過程,這非常強大。
我們隨便舉幾個例子:

當我們直接問 chatgpt,30x9,它可以直接計算出 270,但請注意,這實際上并不是算出來的,而是靠內部記憶記住的東西,所以我們必須讓題目難一些,好吧,打眼一瞅,很像正確答案,但實際上是錯的,這可以和計算器計算結果對比一下,但很神奇的是,chatgpt 給出的結果雖然不對,但很接近,我猜它可能還是學到了一些數學計算方面的某些知識,例如首位部分是對的,尾數是對的,總位數也是對的。
然后我們再將這個問題拿給 gemini 試一下

好吧,雖然是個 thinking 模型,也不對,但是這個模型也展現出了前面的現象,頭尾部分正確,位數正確。

這是 claude-4-sonnet 的結果,它竟然會列豎式,結果也是對的,哇,真的被驚艷到了,我甚至懷疑它內部偷偷使用工具了,為此我們必須再加深難度為難它一步,我讓它計算 823485243*43891723=?

OK,這次也羅列了一個較長的算式,但最后結果錯了,但依然頭尾準確,位數長度準確,我猜這些模型內部一定學到了關于乘法計算頭尾數字計算以及總體位數方面的某些技巧,我不確定數學上是否真的存在此類先天性校驗技巧,如果沒有,這或許是一個值得研究的內容。
好吧,我們不為難這些模型,讓我們使用代碼工具輔助這些模型完成計算



我們可以讓 chatgpt 使用 python 編碼的方式進行計算,這里 LLM 將我們的問題抽取出來,并進行編碼,將代碼文本發送給 python 解釋器這個工具,由 python 解釋器負責具體的運算過程,并將結果發送給模型,模型再將結果整理輸出給我們。
這就是編碼工具的使用,強大得令人難以置信。OpenAI 訓練了 ChatGPT,讓它能大致了解在什么情況下應該借助工具,他們通過示例教會了它這一點。因此,人類標注員會參與整理數據集,通過示例告訴模型在哪些情況下應該使用工具以及如何使用。但基本上,我們也可以明令要求它使用一些工具來進行作答。