LLMs 系列實操科普(4)

六、deep research

這是 chatgpt 推出的功能,但我這里是免費用戶,一個月才有 5 次使用機會,而且使用的是輕量化模型版本,相對體驗上比較雞肋一些。

那這個深度思考研究是個什么東西呢?

根據 openai 對其的解釋是,它是一種專業的人工智能能力,利用網絡數據進行深入、多步驟的研究。基于 o3 推理模型(免費輕量版本應該是 o4-mini)進行了微調,能夠自主搜索并閱讀來自不同在線來源的信息。這使得它能夠針對復雜主題創建詳盡、有據可查且引用清晰的報告。

在場景上,它非常適合從事金融、科學和法律等領域高強度知識工作的人士,以及需要全面、精確和可靠研究的研究人員和精明的購物者。每項輸出都完整記錄,并清晰標注來源引用,便于驗證和參考信息。深度研究尤其擅長發現小眾、非直觀的信息,這些信息通常需要在多個網站上進行多步驟查找。

所以簡單來說,深度研究是網絡搜索與深度思考的結合體,經過長期研發才推出——模型會持續運行數十分鐘進行深度分析。

例如我們隨便問一個,關于高考結束后選專業的一個話題,例如,我們可以問,

作為即將高考結束的學子,在未來選專業上,計算機專業是否還是一個熱門專業,就業前景、壓力相比之下如何,在 AI 時代,計算機專業和數理統計等專業上應該做如何取舍,如果我考了 600 分,如果今年各高校錄取水平與 2024 年差不多的話,給出你的綜合性建議及理由。并且作為一個剛走出校園的高中生,如果未來想進入 AI 領域并打算深入下去,請你給出學業或有關 AI 學習的路線圖。

它首先會根據你的問題,羅列出一些需要你澄清的問題,就挨個回答一下就好了,然后它就開始進入漫長的搜索與思考過程,如果你點擊這個進度條,右側會給出他當前在搜索什么或者思考什么,大概來說就是根據問題,去搜索,然后思考整理答案,并自行發出新的搜索指令,重新整合,整體上就像我們不斷搜索網頁內容整理筆記,再搜索再整理的要給過程。

整個過程相對比較耗時,這期間你可以先去干點別的事情,不必在這里一直等待,

Image 1 Image 2 Image 3

最后就會形成這樣的一份報告,并支持 pdf 下載,單從報告整體風格上看還是挺不錯的,從內容上看很一般,首先我假設的是 600分,給我推薦的都是 600 多的,然后跟我說不可及,難以進入(我用你說),然后專業對比上只有對比,沒有結論,學習路線圖也很官方,不具有可操作性,整體內容上我其實不太滿意。

需要強調的是由于免費版該功能背后使用的模型是輕量化,大概就是 o4-mini 吧,加上我的這些問題可能本身就搜不到太多好的內容或者它引用的網絡源質量偏低,大概結果就是這個樣子吧。

七、文件上傳

需要提醒的是,盡管這些工具在進行研究并整合信息,但并不能保證完全沒有幻覺內容。任何時候都可能出現虛假信息。它可能是編造的、虛構的,或者被模型誤解的。這就是為什么這些內容中的引用源非常重要。如果當前問題對你比較重要,你需要結合它給出的引用源資料,自行閱讀驗證一下,你當然也可以關掉該模式,切換到普通對話模型繼續就一些問題做出交流。

這里真正有趣的是,我們正在為大型語言模型提供額外的具體文檔,這些文檔可以在其上下文窗口中被引用。因此,模型不僅僅依賴于其參數中的知識和對世界的模糊理解,即不僅僅依賴于它"大腦"中的知識。我們實際上這些工具是在給它提供具體的文檔,就好像我們在回答某個問題時,會參考互聯網上的具體文件或類似資料。現在我們可以通過互聯網搜索或類似工具來實現這一點。

但我們也可以通過文件上傳的方式,直接為這些大語言模型提供具體的文檔。我發現這個功能在很多方面都非常實用。

這是 meta 最近剛出的一篇論文,還蠻有意思,我們以 chatgpt 為例,直接將這篇論文扔給它,要求其介紹下這篇論文的研究內容,研究過程,以及他們的一些研究發現和結論內容,并對一些關鍵術語進行解釋說明。

現在,當 chatgpt 收到這份文檔時,它們大概就會將 pdf 文件解析為文字,我猜它們可能會丟棄圖片等信息,后臺的處理方式很可能是將這份 PDF 文件轉換成一個文本文件,然后把這個文本文件加載到 token 窗口中。一旦它進入 token 窗口,就會進入工作記憶,我們就可以對其提問,就像圖中這個樣子,這樣一來可以輔助我們閱讀論文、讀書、讀報告等。

例如當你在讀一本小說或者學習某個專業領域的書籍,當你具有電子版的時候,你可以將書籍內容直接復制粘貼到對話框中,或者將 pdf 文件或內容截圖上傳進來,你都可以要求它首先給出概要或者內容梗概、重點知識抽取、人物關系圖等,當然,pdf 文件或內容截圖受限于文件解析的準確率或 OCR 識別準確率,當你能夠復制粘貼原文時,最好的方式是直接復制粘貼過來,這是一種非常高效的閱讀體驗。雖然某些書籍,可能已經存在于模型的內部知識中,但我們一再說明,這種記憶是模糊的,因此如果你手里有這本書的內容,那還是再給他上傳一遍吧。

[!warning]
另外需要注意的是,不要輕易上傳自己的個人資料,如果確實需要模型幫你做一些事情,請注意脫敏,不要傻乎乎的什么都上傳

八、Python 解釋器

這雖然會涉及到編程,但 AI 時代,即便不是程序員,了解一些基礎的編程內容也是很有益的,尤其是像 python 這種入門學習門檻很低的編程語言。

Python 解釋器,基本上就是讓大語言模型能夠使用和編寫計算機程序。因此,大型語言模型不再直接給出答案,而是具備了編寫計算機程序的能力,并能輸出特殊 token。這些 token 會被 chatgpt 應用識別為——嘿,這不是給人看的。這實際上是在聲明:我在此輸出的所有內容都是計算機程序,請去執行它并把運行結果反饋給我。這就是語言模型與 Python 等編程語言的整合過程,這非常強大。

我們隨便舉幾個例子:

當我們直接問 chatgpt,30x9,它可以直接計算出 270,但請注意,這實際上并不是算出來的,而是靠內部記憶記住的東西,所以我們必須讓題目難一些,好吧,打眼一瞅,很像正確答案,但實際上是錯的,這可以和計算器計算結果對比一下,但很神奇的是,chatgpt 給出的結果雖然不對,但很接近,我猜它可能還是學到了一些數學計算方面的某些知識,例如首位部分是對的,尾數是對的,總位數也是對的。

然后我們再將這個問題拿給 gemini 試一下

好吧,雖然是個 thinking 模型,也不對,但是這個模型也展現出了前面的現象,頭尾部分正確,位數正確。

這是 claude-4-sonnet 的結果,它竟然會列豎式,結果也是對的,哇,真的被驚艷到了,我甚至懷疑它內部偷偷使用工具了,為此我們必須再加深難度為難它一步,我讓它計算 823485243*43891723=?

OK,這次也羅列了一個較長的算式,但最后結果錯了,但依然頭尾準確,位數長度準確,我猜這些模型內部一定學到了關于乘法計算頭尾數字計算以及總體位數方面的某些技巧,我不確定數學上是否真的存在此類先天性校驗技巧,如果沒有,這或許是一個值得研究的內容。

好吧,我們不為難這些模型,讓我們使用代碼工具輔助這些模型完成計算

Image 1 Image 2 Image 3

我們可以讓 chatgpt 使用 python 編碼的方式進行計算,這里 LLM 將我們的問題抽取出來,并進行編碼,將代碼文本發送給 python 解釋器這個工具,由 python 解釋器負責具體的運算過程,并將結果發送給模型,模型再將結果整理輸出給我們。

這就是編碼工具的使用,強大得令人難以置信。OpenAI 訓練了 ChatGPT,讓它能大致了解在什么情況下應該借助工具,他們通過示例教會了它這一點。因此,人類標注員會參與整理數據集,通過示例告訴模型在哪些情況下應該使用工具以及如何使用。但基本上,我們也可以明令要求它使用一些工具來進行作答。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/909833.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/909833.shtml
英文地址,請注明出處:http://en.pswp.cn/news/909833.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

若依框架前端調用后臺服務報跨域錯誤

背景:使用若依框架的前后端分離項目,前后端開發在同一個辦公室情況下前端調用后端服務提示如下報錯:Access to XMLHttpRequest at http://ip1:8089/online/layer/dataType from origin http://ip2:6090 has been blocked by CORS policy: Res…

PHP商城源碼:構建高效電商平臺的利器

一、PHP商城源碼的核心優勢 1. **開源免費,降低成本** PHP作為開源語言,擁有龐大的開發者社區,成熟的商城源碼(如EcShop、OpenCart)可免費獲取,大幅降低企業的技術投入成本。 2. **開發效率高** PHP語法…

【學習筆記】C++代碼規范整理

【學習筆記】C代碼規范整理 一、匿名空間namespace 匿名命名空間(Anonymous Namespace)是一種特殊的命名空間聲明方式,其作用是將聲明的成員限定在當前編譯單元(源文件)內可見,類似于使用 static 關鍵字修…

數學復習筆記 29 不定積分

前言 復習的時候時常復習一下以前復習的高數,溫故而知新,可以為師矣。現實生活中有非常多讓我難受的事情,賢者模式的時候也會對一些自己的行為嗤之以鼻,復習考研對其他三門科目都沒有學出來正反饋,只能從數學這兒找一…

微軟因安全漏洞禁用黑暗環境下的Windows Hello面部識別功能

面部識別技術在各種場景中的應用日益廣泛,但身份欺詐事件仍時有發生,這表明即使面部識別也并非萬無一失。在某些情況下,這些系統可能被攻擊者利用。 漏洞發現與應對措施 近期,微軟在Windows 10和11系統中禁用了黑暗環境下使用Wi…

產品經理課程(十五)實戰點評(3)

(一)復習 需求文檔是產品的說明書 需求文檔包含:修訂記錄、背景、主要流程、詳細功能邏輯、數據上報,發布策略 bug也是需求文檔的一部分 (二)案例講解 案例一: 一個版本里面的4-5個功能點就比…

大模型量化與剪枝

大模型量化,剪枝 量化有助于減少顯存使用并加速推理 GPTQ 等后訓練量化方法(Post Training Quantization)是一種在訓練后對預訓練模型進行量化的方法。 ### model model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct template: llama3### export export_di…

Oracle 數據庫數據操作:精通 INSERT, UPDATE, DELETE

作者:IvanCodes 日期:2025年6月18日 專欄:Oracle教程 在 Oracle 數據庫中,對表內數據進行增加、修改和刪除操作是通過數據操作語言 (DML - Data Manipulation Language) 來完成的。核心的DML語句包括 INSERT (插入新數據), UPDATE…

推薦使用的Unity插件(InputSystem)

本文將提供更簡潔的步驟和常見問題解決。 一、極簡入門步驟: 安裝:Package Manager中安裝Input System(確保Unity版本在2019.4) 創建Input Actions: 在Project窗口右鍵 -> Create -> Input Actions 雙擊打開…

清理 Docker 容器日志文件方法

操作總結與問題解析 一、操作目的與背景 用戶旨在清理 Docker 容器日志文件以釋放服務器存儲空間,主要通過以下命令組合完成操作: 查看容器日志空間占用清空指定容器的日志文件驗證容器運行狀態與日志清理效果二、關鍵命令與輸出解析 1. 查看 Docker 容器日志空間占用 du…

圖片壓縮工具 | 按指定高度垂直切割圖片

OPEN-IMAGE-TINY,一個基于 Electron VUE3 的圖片壓縮工具,項目開源地址:https://github.com/0604hx/open-image-tiny ?? 需求描述 在上一篇文章一段代碼利用 snapdom 將 CSDN 博文轉化為長圖片(PNG/JPG/PDF)中&…

山東大學軟件學院創新項目實訓開發日志——第十七周(二)

目錄 1.優化前端日歷頁面顯示,增加鼠標懸停顯示當日會議基本信息的效果。 2.優化會議計劃生成與會議PPT生成功能,使得能夠加載多頁docx文件與PDF文件 3.優化了會議PPT生成功能,使得可以上傳多個文件并根據多個文件生成會議PPT 4.修改了識…

Ubuntu 使用kubeadm部署k8s系統組件反復重啟的問題

系統:Ubuntu 24.04 LTS 問題現象:kubeadm init 后系統組件proxy、apiserver、etcd等頻繁掛掉重啟 問題原因:cgroup配置問題 解決方法: 編輯系統cgroup默認配置文件 sudo nano /etc/default/grub 將GRUB_CMDLINE_LINUX_DEFAU…

Oracle獲取執行計劃之EXPLAIN PLAN 技術詳解

#Oracle #執行計劃 #EXPLAIN PLAN 一、引言 在Oracle數據庫性能優化中,?執行計劃(Execution Plan)?是理解SQL語句如何被數據庫處理的關鍵工具。EXPLAIN PLAN是Oracle提供的一種靜態分析SQL執行路徑的方法,它通過生成邏輯執行…

【論文閱讀】Qwen2.5-VL Technical Report

Arxiv:https://arxiv.org/abs/2502.13923 Source code:https://github.com/QwenLM/Qwen2.5-VL Author’s Institution:Alibaba 背景 多模態大模型 多模態大模型MultiModal Large Language Models (MM-LLMs) 的發展可以通過一篇綜述了解:MM-LLMs: Re…

vue中computed和watch區別

在 Vue 中,computed 和 watch 都是用來響應式地處理數據變化的工具,但它們的用途和行為有明顯區別。 🔍 一句話總結 computed:用于聲明式計算屬性,有緩存。 watch:用于監聽響應式數據的變化并執行副作用邏…

大語言模型:提示詞決定自我反思效果: “檢查回答是否錯誤” “驗證回答是否正確”

大語言模型(LLMs)自我反思的結果很容易受提示詞構造的影響 大型語言模型(LLMs)展現出令人印象深刻的零樣本和少樣本推理能力。有人提出,這些能力可以通過自我反思來提升,即讓大型語言模型反思自己的輸出,以識別和糾正初始回答中的錯誤。然而,盡管有一些證據表明自我反…

【iReport】實際開發中,解決iReport中打印圖片不顯示問題

ireport 中增加圖片,添加上屬性,但是運行時報錯如下,是屬性logoPath沒有聲明到map中 1. Parameter not found : logoPath net.sf.jasperreports.engine.design.JRValidationException: Report design not valid : 1. Parameter not fo…

【MySQL進階】常用MySQL程序

目錄 一. mysqlcheck——表維護程序 1.1.作用 1.2 注意事項 1.3 使用方法 1.4 常用選項 1.5 mysqlcheck的特殊使用 二. mysqldump——數據庫備份程序 2.1.作用 2.2 注意事項 2.3 使用方法 2.4 常用選項 三. mysqladmin——MySQL 服務器管理程序 3.1.作用 3.2 使用…

EMQX高效存儲消息到MySQL指南

配置 EMQX 存儲消息到 MySQL EMQX 可以通過規則引擎和數據橋接功能將消息和事件存儲到 MySQL 數據庫。以下是具體實現方法: 創建 MySQL 數據表 在 MySQL 中創建用于存儲消息的表結構: CREATE TABLE mqtt_messages (id int(11) NOT NULL AUTO_INCREME…