目前推出深度研究和深度檢索的AI大模型有四家:
OpenAI和Gemini 的deep research,以及Perplexity 和Grok的deep search,都能生成帶參考文獻引用的主題報告。
致力于“幾分鐘之內生成一份完整的主題調研報告,解決人力幾小時甚至幾天的工作量。大大提升研究效率。” ? ? ? ? ??
本文娜姐會針對一個文獻綜述主題,來測試對比一下這四家的實際生成效果。 ? ? ? ? ??
首先,這幾款工具技術參數和價格對比如下:? ??
2 各家效果測試對比: ? ? ? ? ??
下面娜姐以一篇綜述主題“炎癥相關脂肪因子與癡呆的研究進展”為例,詳細對比一下各家的輸出效果: ? ? ? ? ??
我要求按照如下框架內容展開,并包含一個總結性表格:
1 炎癥相關脂肪因子的具體分類;2 脂肪因子在神經炎癥中的作用機制;3 脂肪因子與不同類型癡呆的關系;4 臨床研究和動物實驗的最新進展;5 潛在的治療靶點及干預策略? ? ? ? ? ??
2.1 Perplexity:
為防止用中文對話,Perplexity查找的都是中文信息源,我強調要查找英文文獻,并用中文撰寫綜述,Perplexity聽懂了: ? ? ? ? ??
但是,對于不同脂肪因子與癡呆癥的作用機制,并沒有深入討論,只列舉了相關性:
? ??
最后聽話照做輸出了總結性表格,只是內容總結的不夠全面:
總結一下:
Perplexity deep search的優點是生成帶參考文獻引文的報告。內容的準確度還可以(對比剛上線時候功能似乎有改進),但是不夠全面,對于研究型主題來說,深度也不夠。好在它末尾的“關聯問題”很有啟發性,你可以繼續深挖,補全信息,比如繼續讓它深度思考機制問題:?? ?
? ? ? ? ???
2.2 Grok3 deep search:
雖然我強調了檢索英文文獻,但是最后用中文輸出報告,但是Grok還是檢索的中文信息源:? ??
? ? ? ? ???
然后換成用英文提問,要求中文回復,這下可以了。
Grok的深度搜索檢索了20篇學術文獻,并匯總結果用中文呈現給我。對比Perplexity的文獻大多來自Pubmed、Semantic Scholar,Grok的文獻來源更學術和多樣化:包括ScienceDirect、Wiley、Oxford Academic等學術出版機構。 ? ? ? ? ??
但是它的參考文獻沒有在報告中引用,不好確認相關性:
? ??
Grok表格總結和Perplexity總結的主要脂肪因子種類一樣,但其他類目不同。Perlexity比Grok的總結更符合學術論文風格:
? ? ? ? ???
2.3 Gemini deep research:? ? ? ? ???
Gemini和OpenAI的深度研究都是智能體驅動的,Gemini的底層模型是1.5 pro,在輸出報告之前,都會先出一個內容框架,和你對齊需求,最終生成一份帶參考文獻來源的3000多字綜述報告。?
??? ??
脂肪因子和癡呆的作用機制探討,Gemini比Perplexity和Grok深入一點,但是對于學術論文的文獻綜述,還太淺了:
表格總結方面,Gemini總結的是所有炎癥相關脂肪因子,而不是和癡呆相關的,對主題的理解有偏差:? ? ? ? ? ? ???
? ? ? ? ???
2.4 OpenAI deep research:
用時7分鐘,調研了35篇文獻后,deep research給我輸出了一份2萬多字的完整綜述:? ??
? ???
毫無疑問,這份報告的質量是最高的,不是因為字數最多,而是它的報告足夠有深度、準確性高、文獻是最新的。? ? ??
表格總結,OpenAI deep research是最全面準確和最有深度的,并且全部帶有引文鏈接:? ? ? ? ? ? ???
? ??
相比之下,Perplexity和Grok deep search脂肪因子總結不夠全面,且分析較淺;Gemini Deep Research總結更全面,但是準確度有待核實,有一些不相關的脂肪因子總結進來。且表格其他項目沒有OpenAI總結深入。 ? ? ? ? ??
總結一下:
Perplexity和Grok的深度搜索工具重在搜索和匯總信息,兩者結果呈現相當。Groq搜索來源更廣泛,但是文中不帶引文,不好核實來源;Perplexity會在文中和文末同時附帶參考文獻。 ? ? ? ? ??
Gemini和OpenAI的深度研究相比,Gemini雖然背靠谷歌搜索,但是由于底層大模型1.5 pro不夠給力,充其量只能算deep search的升級版,因為一份深度的研究報告除了對信息的檢索,還包括對信息的判斷、分析和匯總。? ? ? ? ? ? ???
OpenAI deep research勝在其底層模型o3,專門針對深度研究的使用場景,采用 “端到端的強化訓練”方法,獲得了很好的效果。 ? ?
3 OpenAI deep research特點分析? ? ??
該智能體從用戶的問題出發,直接學習每一步該怎么辦:例如應該搜索什么關鍵詞、點擊哪個鏈接、在頁面中尋找哪些信息、何時結束搜索開始撰寫報告等等。整個決策鏈條都是通過強化學習一體化學得的。 ? ? ? ? ??
不需要人為告訴它該搜索什么關鍵詞、點擊哪個鏈接、在頁面中尋找哪些信息、什么時候結束搜索開始撰寫報告等等 。? ??
? ???(OpenAI deep research自主創建關鍵詞,檢索、分析、匯總信息的過程)? ? ??
正因為o3模型在信息判斷和分析綜合能力的提升,它特別適合學術類文獻綜述任務。 ? ? ? ? ??
當然,正如娜姐之前那篇關于OpenAI deep research文章的總結,它也不是沒有缺點的:?
OpenAI deep research全面開放:如何更好的用它進行文獻綜述?(深度使用經驗分享)
? ? ? ? ??? ??
1 完成一個任務要多次嘗試,速度慢,deep research完成一份報告要5-30分鐘;且需要較高的算力支持(所以收費貴,plus用戶每月才10次)。?
2 在文獻來源方面,存在單篇文獻過度引用和引用不全面的問題。在闡述某一個觀點時,找到契合觀點的文獻可能一整段都會只引用1-2篇文獻。所以,deep research出的報告一般都是20-30篇參考文獻。即使你要求更多,也不會超出50篇。 ? ? ? ? ??
你看它的智能體運行過程,會發現,它在找到某一個觀點的支撐文獻之后,就會進入下一個任務,并不會就這個關鍵詞繼續全面檢索文獻。 ? ? ? ??
但是,不同于Gemini的一次性深度研究報告,OpenAI的deep research可以在同一個對話框繼續對話,你可以針對報告中的某一個主題繼續拓展,還能添加附件資料讓它學習。 ? ? ? ? ??
? ??
4 學員群提問關于deep research的問題匯總: ? ? ? ? ??
4.1 怎么樣算是調用了deep research,我的是不是被降智了?
Deep research的回復分為兩步,第一步對齊需求,第二步開始研究。進度條開啟就是成功調用deep research,就會算一次(plus每月10次額度),最后生成的報告一定是帶參考文獻引用的。 ? ? ? ? ??
如果沒有分兩步進行,直接在第一次就回答了你的問題,且沒有進度條展示和參考文獻。那就是被降智了。概率問題,無解。 ? ? ? ? ??
4.2 該如何選擇運行deep research的大模型??? ? ? ? ??? ??
現在ChatGPT也有五六款模型可以選擇了,用哪一個模型進行深度研究效果最好呢?
deep research的回答分為兩步:第一步是根據你的提問和你對其需求,這一步可以自由選擇模型,默認是4o,還可以選擇其他推理模型o1;第二步是啟動深度分析,這一步是調用專門訓練用于深度研究的o3來完成的,選其他的也沒用。 ??
4.3 報告怎么下載?
不同于Gemini的deep research,可以直接生成谷歌文檔,以附件形式下載。OpenAI的深度研究報告不能以附件形式下載,只能在報告末尾左下角點“復制”按鈕,復制到word文檔查看。
? ? ? ? ???
并且,參考文獻都是附在文中,鏈接有時候還不能跳轉。好在,有標題信息,都能溯源。? ? ? ? ? ? ???
好了,以上就是近期四款主流的AI大模型ChatGPT/ Gemini/ Perplexity/ Grok的深度搜索和深度研究功能對比。我們可以根據場景和自己的需求選擇不同的深度研究工具,提升科研效率。