自己的原文哦~? ? ? ? ? ?? ?https://blog.51cto.com/whaosoft/14154064
#公開V3/R1訓練全部細節!
剛剛,DeepSeek最新發文,回應國家新規
AI 生成的內容該不該打上“水印”?網信辦《合成內容標識方法》正式生效后,DeepSeek 率先做出回應:以后凡是 AI 生成的內容,都會明確標注,并同步公開了《模型原理與訓練方法說明》。
網信辦發布的《人工智能生成合成內容標識辦法》已正式生效。
其中,第四條要求:對符合要求的AI生成合成內容添加顯式標識。
剛剛,DeepSeek 官微發布了最新回應公告——凡是 AI 生成的內容,都會清楚標注「AI 生成」。
它還鄭重提醒,用戶嚴禁惡意刪除、篡改、隱匿標識,更別提用 AI 傳播、制作虛假信息。
此外,這次還發布了《模型原理與訓練方法說明》,可以一瞥 DeepSeek 的技術路徑。
接下來,深入探索一下 DeepSeek V3/R1 的一些訓練細節。
- 文檔鏈接:??https://cdn.deepseek.com/policies/zh-CN/model-algorithm-disclosure.html??
01 回應新要求,DeepSeek公開技術說明
DeepSeek 主要介紹了大模型的訓練和推理階段,包括預訓練、優化訓練(微調)以及訓練數據等。
不同大模型的神經網絡架構
1. 模型訓練
模型訓練階段即模型的開發階段:通過設計好的深度神經網絡架構和訓練方法,開發人員開發出可被部署使用的模型。
模型由多層神經網絡組成,不同的架構直接影響模型的性能。此外,模型性能也受參數規模的制約,而訓練的目的就是找到具體的參數值。
目前,大模型的參數規模數以億計。最新的 DeepSeek-V3-0324,參數總量為 6850 億。
在訓練過程中,這些參數通過梯度下降算法迭代優化。
這次,DeepSeek 把模型訓練分為預訓練和優化訓練兩個環節。
預訓練:預訓練目標是通過數據訓練模型,使模型掌握通用的語言理解與生成能力。 ??
優化訓練:也稱為微調,是在預訓練模型的基礎上通過特定任務的數據進一步調整模型參數,使模型適應實際應用場景。
在預訓練階段,模型通過大規模自監督學習,從文本數據中學習語言模式與知識關聯。預訓練完成后,模型能理解并生成連貫的文本,但還不會精準地回答問題或執行任務,因此需要進一步的訓練微調。
在優化訓練階段,模型一般通過 SFT、RL 等方法,學會根據指令回答問題,符合人類的偏好和需求,并激發在特定領域的專業能力。
經過優化訓練的模型能更好地滿足實際需求,可被部署使用。
02 DeepSeek的訓練過程
DeepSeek 模型的能力,是建立在高質量、大規模、多樣化的數據之上。
在「預訓練階段」和「優化訓練階段」,各有不同。
1. 預訓練階段
在預訓練階段,主要使用了兩類數據:
互聯網公開可用的信息,比如網頁、公開文檔等。與第三方合作獲取許可的數據
需要強調的是,在此階段,根本無需獲取個人信息用于訓練,DeepSeek 不會有意關聯至任何特定賬戶和個人,更不會主動將其用于訓練模型。
不過,預訓練數據規模過于龐大,可能偶然包含了一些個人信息。
對此,DeepSeek 會通過技術手段,盡力篩查并移除這些信息,確保數據「干干凈凈」。
為了保證數據質量、安全、多樣,他們還打造了一套硬核數據治理流程——
首先,通過「過濾器」自動剔除仇恨言論、色情低俗、暴力、垃圾信息,以及可能侵權的原始數據。
其次,通過算法+人工審核,識別并降低數據中的統計性偏見,讓模型更公平、更客觀。
2. 優化訓練階段
到了優化訓練階段,一般需要通過人工或自動化的方式構造、標注一批問答對數據來對模型進行訓練。
DeepSeek 這次表示:這些問答對數據是由研究團隊生成提供的,其中少部分數據的構造可能會基于用戶的輸入。
在 DeepSeek-R1 訓練中,研究人員直接提示模型生成包含反思和驗證的詳細答案;收集并整理 DeepSeek-R1-Zero 的輸出,使其具有可讀性;以及通過人工注釋者的后期處理來提高數據質量
如涉及利用用戶的輸入構造訓練數據,DeepSeek 會對數據進行安全加密技術處理、嚴格的去標識化和匿名化處理,從而盡可能避免訓練數據關聯到任何特定個人,且不會在模型給其他用戶的輸出中帶有個人信息,更不會將其用于用戶畫像或個性化推薦。
同時,DeepSeek 為用戶提供了選擇退出的權利。
為了確保模型的安全性,在模型優化訓練階段,DeepSeek 構造了專門的安全數據對模型進行安全對齊,教會模型的回復符合人類的價值觀,增強模型內生的安全能力。
3. 模型推理
模型的推理階段即模型被部署提供服務。
模型訓練完成并被部署后,可以通過對輸入信息進行編碼和計算來預測下一個 token,從而具備文本生成和對話等能力。
部署后的模型能夠熟練執行基于文本生成的廣泛多樣的任務,并可以集成到各種下游系統或應用中。
具體到 DeepSeek 的產品服務,基于用戶的輸入,模型采用自回歸生成方式,基于輸入的上下文內容,通過概率計算預測最可能的接續詞匯序列。
推理完成后,模型輸出相應的內容作為響應,包括文字、表格和代碼等。
此并非簡單檢索或「復制粘貼」訓練數據中的原始文本,模型也并未存儲用于訓練的原始文本數據副本,而是基于對語言結構和語義關系的深度理解,動態生成符合語境的回答。
DeepSeek 這次還強調模型開源。
我們通過開源平臺對外公開發布了所有模型的權重、參數以及推理工具代碼等,并采用寬松的 MIT 協議,供使用者自由、免費下載部署使用。?
同時,DeepSeek 發布各模型的完整技術報告,供社區和研究人員參考,并幫助公眾更深入地了解每個模型的技術原理和細節。
03 全周期對抗LLM的局限性和風險
毋庸置疑,當前 AI 發展還在早期階段,存在無法避免的局限性。
若是再被加以濫用,將會帶來嚴重的后果。
1. 局限性
AI 往往會生成錯誤、遺漏,或不符合事實的內容,這種現象統一稱之為「幻覺」。
這個問題,是整個 AI 行業面臨的挑戰。
對此,DeepSeek 正通過一些技術手段降低幻覺率,包括高質量的訓練數據、優化對齊策略、RAG等,但現階段依無法完全消滅。
同時,他們還在歡迎頁、生成文本的末尾,以及交互界面底部,添加顯著的提示標識。
特別提醒用戶——內容由人工智能生成,可能不準確。
因此,AI 生成的內容僅供參考,所有人不應將輸出的內容作為專業建議。
尤其是,在醫療、法律、金融等專業領域,DeepSeek 不提供任何建議或承諾,專業的事兒還得找專業的人。
2.濫用風險
AI 技術本身是中立的,但濫用可能帶來隱私保護、版權、數據安全、內容安全、偏見歧視等風險。
DeepSeek 對此也是高度重視,采取了一系列硬核措施,貫穿了模型研發、訓練、部署的全生命周期。
制定內部風險管理制度 ?
開展模型安全性評估 ?
進行紅隊測試 ?
增強模型和服務透明度等
更重要的是,DeepSeek 還賦予了用戶知情權、選擇權、控制權——
你可以查詢服務的基本信息、拒絕其數據用于模型訓練、刪除其歷史數據等。
參考資料:
- ??https://cdn.deepseek.com/policies/zh-CN/model-algorithm-disclosure.html??
2.???DeepSeek 關于 AI 生成合成內容標識的公告??
#BED-LLM
蘋果新研究:不微調、不重訓,如何讓AI提問效率暴增6.5倍?
在這場以大型語言模型(LLM)為核心的 AI 浪潮中,蘋果似乎一直保持著低調,很少出現在技術報道的前沿。盡管如此,時不時地,該公司也能拿出一些非常亮眼的研究成果,比如能在 iPhone 上直接運行的高效視覺語言模型?FastVLM。
近日,蘋果與牛津大學和香港城市大學合作的一項新研究吸引了不少關注。其中提出了一種名為?BED-LLM?的新方法,能讓 AI 解決問題的能力直接提升 6.5 倍(成功率從 14% 暴增至 91%),而整個過程無需微調或重新訓練,直接在當前模型上運行即可。
而實現這一突破的關鍵,便是讓 AI 學會問出完美的問題。
那么,究竟該如何做到這一點呢?
- 論文標題:BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
- 論文地址:https://arxiv.org/abs/2508.21184
這要從 LLM 的一個不足之處說起,即難以智能且自適應的方式主動從用戶或外部環境中獲取信息。這就像是 LLM 的「多輪遺忘癥」。
具體而言,雖然現代 LLM 通常能夠一次性生成連貫且富有洞察力的問題(或其他外部查詢),但它們通常難以根據先前在交互式任務中收集到的答案進行適當的調整。比如,已有研究證明,LLM 在多步猜謎游戲、任務澄清、IT 任務自動化以及迭代式外部工具使用等問題上表現不佳。
因此,提高 LLM 自適應地提出問題和有針對性地收集信息的能力是很有必要的。
簡單來說,LLM 僅僅基于其龐大的知識庫一次性生成好問題是不夠的。真正的智能體需要能根據用戶的實時反饋,動態調整策略,精準地提出下一個最有價值的問題 。
BED-LLM:讓提問成為一門科學
牛津、蘋果和香港城市大學的這個聯合團隊提出,可以使用序貫貝葉斯實驗設計(Bayesian experimental desig/BED)框架來解決這一問題。
該框架提供了一種基于模型的信息論機制,可用于在給定實驗的生成模型的情況下做出自適應設計決策。
具體而言,該團隊展示了如何將使用 LLM 進行交互式信息收集的問題表述為一個序貫實驗設計問題,其中有一個迭代過程:
- 每次選擇要問的問題(query),都要盡量最大化預期信息增益(Expected Information Gain, EIG)。
- 根據用戶的回答更新信念(belief)。
- 再基于新的信念選擇下一步要問的問題。
這就像科學實驗:一步步設計實驗、收集數據、更新假設,而不是一次性問到底。
這里,構成序貫 BED 程序的底層生成模型源自 LLM,該團隊特別展示了該模型的構建方式,并為關鍵設計決策提供了廣泛的見解。
該團隊將這種方法命名為?BED-LLM,即?Bayesian Experimental Design with Large Language Models。
這種名為 BED-LLM 的方法之所以高效,源于其背后三重智慧的巧妙設計:
智慧一:追求真正的信息增益,而非表面上的不確定性
過去的方法常常讓 AI 選擇自己「感覺最不確定」的問題,但這并非最優解。BED-LLM 的核心是精確計算 EIG,確保問題能帶來最大價值。
論文中一個生動的例子可以說明這一點 :假設 AI 想了解你的電影偏好,它有兩個問題可選:
- 問題 A:「你最喜歡什么口味的冰淇淋?」
- 問題 B:「你最喜歡哪種電影類型?」
對于問題 A,AI 可能完全猜不到答案(即預測熵很高),但這個答案對于了解你的電影品味毫無幫助(EIG 為 0) 。而問題 B 的答案雖然也不確定,但無論你回答「科幻」還是「喜劇」,都能極大地幫助 AI 縮小猜測范圍,因此它的 EIG 非常高 。BED-LLM 正是基于這種原則來選擇問題的。
智慧二:強制邏輯自洽,糾正 LLM 的遺忘癥
研究發現,即便是 GPT-4o 這樣頂尖的模型,在多輪對話中也常常會忘記之前的約束,提出與歷史回答相矛盾的假設 。
BED-LLM 引入了先采樣后過濾?(sample-then-filter)?策略來解決這個問題。
它首先讓 LLM 生成一批可能的答案(例如,在猜名人游戲中生成多個候選人),然后用一個「邏輯過濾器」逐一檢查這些答案是否與用戶之前的所有回答都兼容,將不符合邏輯的選項直接剔除。這確保了 AI 的每一步推理都建立在已知的事實之上。
智慧三:生成問題有的放矢,而非天馬行空
在生成候選問題時,BED-LLM 采用了一種更具針對性的條件生成?(Conditional generation)?策略 。它會先參考當前已經過篩選、邏輯自洽的假設池,然后讓 LLM 提出能夠最高效「切分」這些假設的問題 。這使得提問從一開始就目標明確,直指核心。
結果如何?
為了驗證 BED-LLM 的效果,研究團隊將其與兩種主流基準進行了對比:
- Naive QA:完全依賴 LLM 的「直覺」來提問。
- Entropy:采用簡化的 EIG 版本,即只考慮預測不確定性的方法 。
結果顯示,無論是在「20 個問題」猜謎游戲還是電影偏好推薦任務中,BED-LLM 的表現都全面超越了基準方法 。
具體而言,該團隊首先發現,BED-LLM 在各種 LLM 和目標數量下,顯著提升了 20 個問題問題的成功率。例如,在使用 Mistral-Large 預測名人時,該團隊觀察到成功率從 14% 提升至 91%。
其次,該團隊展示了 LLM 在電影推薦方面取得的顯著改進,表明即使 LLM 的預測模型與回答者的預測模型不同,這些優勢依然有效。
更具現實意義的是,研究團隊還進行了一項「模型跨服聊天」的壓力測試:讓提問的 AI 和回答的 AI 使用完全不同的模型(例如,提問方是 Qwen,回答方是 GPT-4o-mini)。
這種設置更貼近真實世界,因為用戶的思維模型與 AI 本就不同。即便在這種「模型失配」的情況下,BED-LLM 的性能優勢依然穩固,展現了其強大的穩健性。
總而言之,這項研究為我們展示了如何通過嚴謹的數學框架,將 LLM 從一個被動的知識問答庫,轉變為一個主動、高效、且具備邏輯推理能力的信息收集者。這或許預示著,未來的 AI 交互將不再是簡單的一問一答,而是真正意義上的「智慧對話」。
#Learning Curves
Scaling Laws起源于1993年?OpenAI總裁:深度學習的根本已揭秘
AI 也要「考古」式科研?
人工智能的「第一性原理」擴展定律(Scaling Laws),把模型性能與算力等資源投入聯系在了一起,是如今人們構建更先進大模型重要的參考標尺。
有關擴展定律的起源,存在很多種說法,有人認為是 2020 年 OpenAI 提出的,有人認為是 2017 年百度發現的,詳情可參閱我們之前的報道《遺憾不?原來百度 2017 年就研究過 Scaling Law,連 Anthropic CEO 靈感都來自百度》。
前些天,康奈爾大學博士生、Meta 研究員 Jack Morris 發推稱 Scaling Law 的真正探索者其實是貝爾實驗室,這又進一步將歷史向前推到了 1993 年。
他進一步解釋說,這篇論文其實是一篇 NeurIPS 論文。貝爾實驗室的研究者「在不同大小的數據集、不同大小的模型上訓練了分類器并擬合了冪律」。這讓 Morris 不禁感嘆:「不敢相信這已經是 32 年前的事了。」
近日,OpenAI 聯合創始人、總裁 Greg Brockman 也轉發了這一消息,并表示這些結果跨越了多個數量級和幾十年的時間,經歷了時間的考驗,可以說揭示了深度學習的根本。
這也不得不讓人贊嘆貝爾實驗室的前瞻性和眾多開創貢獻:
貝爾實驗室的 Scaling Law
回到人們正在討論的這篇論文本身。它是一篇 AI 頂會 NeurIPS 論文:
- 論文標題:Learning Curves: Asymptotic Values and Rate of Convergence
- 論文鏈接:https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf
這篇論文介紹說,基于大規模數據訓練分類方法是相當耗費算力的工作。因此,開發高效的程序來可靠地預測分類器是否適合執行給定任務至關重要,這樣才能將資源分配給最有潛力的候選分類器,或騰出資源來探索新的候選分類器。
作者提出了一種實用且有原則的預測方法,避免了在整個訓練集上訓練性能較差的分類器的高成本過程,同時擁有堅實的理論基礎。作者證明了所提方法的有效性,以及適用于單層和多層網絡。
在該工作中,作者研究了自動分類的算法,隨著訓練數據逐步增加,分類器的能力(模型出錯的概率)被持續標記。在測量了多個數據點后,可以發現模型的錯誤率對比訓練數據的數量,在對數曲線上呈現出了一定的規律。
作者進而得出結論:「經過 12000 種模式的訓練后,很明顯新網絡的表現將優于舊網絡…… 如果我們的預測方法能夠對網絡的測試誤差做出良好的定量估計,我們就可以決定是否應該對新架構進行三周的訓練。」
這就意味著模型的規模擴大,AI 的智能會越來越強;而這就是 Scaling Law(擴展定律)!
從幾萬條數據訓練的機器學習模型開始,到去年 GPT-4 上萬億巨量數據集、萬億參數的規模,幾十年來,擴展定律一直有效。
作者介紹:從「國寶」到「瘋狂科學家」
這篇論文一共有 5 位作者:Corinna Cortes、L. D. Jackel、Sara A. Solla、Vladimir Vapnik、John S.Denker。各自都有自己的傳奇經歷。
Corinna Cortes
這篇論文的一作 Corinna Cortes 已經擁有超過 10 萬引用!她與四作 Vladimir Vapnik 也是經典論文《Support-vector networks》(引用量超過了 7.7 萬)的兩位作者。這篇論文提出了大家熟知的現代意義上的支持向量機。
另外,她還與 LeCun 等人一起構建了著名的 MNIST 數據集,而這也成為了后續大量研究的重要基礎數據集。
也無怪乎有人在評論區稱她是「國寶」:
Corinna Cortes 的職業履歷很簡單:先在貝爾實驗室工作了 14 年,之后于 2003 年加入谷歌,領導 Google Research NY 達 21 年之久。現在她是 NeurIPS 的董事會成員之一。她同時也是一名競技跑步運動員。
Lawrence D Jackel
這篇論文的二作 Lawrence D Jackel 是時任的貝爾實驗室應用系統研究部門負責人。1988 年 Yann LeCun 加入該實驗室后,與他合作完成了多項高引用研究成果,其中包括一篇重要的反向傳播論文《Backpropagation applied to handwritten zip code recognition》。
Sara A. Solla
Sara A. Solla 則是一名物理學家和神經科學家。她最高引用的論文也是與 Yann LeCun 合著的《Optimal brain damage》。
該論文運用信息論的思想,推導出了一類用于調整神經網絡規模的實用且近乎最優的方案。通過從網絡中移除不重要的權重,可以預期實現多項改進:更好的泛化能力、更少的訓練樣本需求以及更快的學習和 / 或分類速度。其基本思想是利用二階導數信息在網絡復雜度和訓練集誤差之間進行權衡。
Vladimir Vapnik
前文我們已經見到過 Vladimir Vapnik 的名字,即支持向量機的作者之一。除此之外,這位擁有超過 33.5 萬引用的大佬還是統計學習領域著名的 Vapnik–Chervonenkis 理論的提出者之一 —— 是的,這個理論就是以他和蘇聯數學家 Alexey Chervonenkis 的名字命名的。
Vladimir Vapnik 在 1995 年出版的 《The Nature of Statistical Learning Theory》是系統化提出統計學習理論(Statistical Learning Theory, SLT)的代表作,堪稱機器學習領域的里程碑。
John S. Denker
John S. Denker 則更是一位多才多藝的研究者,涉足過大量不同領域,甚至可以說是天才(Genius)的代名詞。
他曾就讀于加州理工學院。大三時,他創辦了一家成功的小型軟件和電子公司,在安防系統、好萊塢特效、手持電子游戲和視頻游戲等多個領域做出了開創性的工作。此外,在讀本科期間,他還在加州理工學院創建并教授了一門課程:「微處理器設計」。
他在康奈爾大學的博士研究考察了氫原子氣體在僅比絕對零度高千分之幾攝氏度的溫度下的性質,并表明在這種稀薄的玻色氣體中存在量子自旋輸運和長壽命的「自旋波」共振。他的其他研究涉及超低噪聲測量設備的設計 —— 其中基本的量子力學限制起著重要作用。
Denker 博士加入過 AT&T 貝爾實驗室多年時間,曾擔任杰出技術人員、部門主管和部門經理等職務。他的研究興趣包括計算機安全、選舉安全、網絡電話和神經網絡。他還發明了新型低能耗「絕熱」計算系統。
1986 年至 1987 年,他擔任加州大學圣巴巴拉分校理論物理研究所客座教授。他曾擔任多個重要科學會議的組委會委員。
他擁有多項專利,撰寫了 50 多篇研究論文和一本書的章節,并編輯了 《Neural Networks for Computing》一書。他的演講范圍廣泛。
他以愛惡作劇和典型的瘋狂科學家而聞名。他的一些事跡曾被改編成電影《Real Genius》和《The Age Seeking for Genius》,并刊登在《時代》和《IEEE Spectrum》等刊物上。
John Denker 還擁有商用飛行員、飛行教練和地面教練資格。他是美國聯邦航空管理局(FAA)的航空安全顧問。他曾任蒙茅斯地區飛行俱樂部董事會成員,以及美國國家研究委員會商用航空安全委員會成員。
Scaling Law 的歷史可能還能繼續向前追溯
有意思的是,在相關推文的評論區,有不少研究者評論認為貝爾實驗室的這篇論文其實也不是 Scaling Law 的最早論文。
比如著名研究者、科技作家 Pedro Domingos 表示其實心理學領域才是最早探索「學習曲線」的領域。
研究者 Maksym Andriushchenko 表示 Vladimir Vapnik 在上世紀 60 年代就已經研究過樣本大小方面的 Scaling Law。
而 @guillefix 則表示 Frank Rosenblatt 在 1958 年發表的感知器論文《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》就已經給出了非常清晰的學習曲線。
此外,𝕏 用戶 @lu_sichu 提出了 1992 年日本工程師和神經科學家甘利俊一(Shun-ichi Amari)寫的論文《A Universal Theorem on Learning Curves》也比貝爾實驗室的上述論文更早一些。
其中證明了一類普適的學習曲線漸近行為,適用于一般的無噪聲二分機器或神經網絡。結果表明:無論機器的架構如何,其平均預測熵或信息增益 <e*(t)> 都會在訓練樣本數 t 增加時收斂至零,并滿足 <e*(t)> ~d/t 的規律,其中 d 為機器的可調參數的個數。
縱觀數十年的研究脈絡,Scaling Law 的提出并非靈光乍現的頓悟,而是跨越學科、跨越時代的逐步累積。從心理學的學習曲線,到感知器的早期探索,再到 Vapnik、Amari、貝爾實驗室的系統化研究,最后發展到 OpenAI 等機構在大規模實驗中驗證和推廣,每一代學者都在為這條「經驗定律」添磚加瓦。
今天我們所說的 Scaling Law,看似清晰而堅固,但它背后蘊含的是數十年理論與實踐的反復印證。正如 Brockman 所言,它揭示了深度學習的根本,而這一「根本」并不是一蹴而就的,而是科學探索在時間長河中的積累與沉淀。
對此,你怎么看?
#Stepwise Reasoning Checkpoint Analysis
告別無效計算!新TTS框架拯救19%被埋沒答案,推理準確率飆升
大語言模型通過 CoT 已具備強大的數學推理能力,而 Beam Search、DVTS 等測試時擴展(Test-Time Scaling, TTS)方法可通過分配額外計算資源進一步提升準確性。然而,現有方法存在兩大關鍵缺陷:路徑同質化(推理路徑趨同)和中間結果利用不足(大量高質量推理分支被丟棄)。
為解決這些問題,華為諾亞方舟實驗室聯合香港中文大學等機構的研究人員提出逐步推理檢查點分析(SRCA)框架 —— 在推理步驟間引入 “檢查點”,并集成兩大核心策略:(1)答案聚類搜索(Answer-Clustered Search):根據中間檢查點答案對推理路徑進行分組,在保證質量的同時維持路徑多樣性;(2)檢查點候選增強(Checkpoint Candidate Augmentation):利用所有中間答案輔助最終決策。
實驗結果表明,在多個數學數據集上,如 MATH500 和 OlympiadBench,SRCA 相較于現有 TTS 方法,推理準確性均有提升。該論文已被 EMNLP 2025 接收。
- 論文題目:Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning
- 論文鏈接:https://arxiv.org/abs/2505.17829
Test Time Scaling(TTS)技術簡單來說就是在模型測試階段 "砸資源":不改變模型本身,而是通過增加推理時的計算開銷,讓 LLM 在解題時 "多想一會兒",從而顯著提升推理準確性。除了常見的長思維鏈,比如 DeepSeek R1 典型的 think 模式,多次采樣并有策略的搜索正確解題路徑也是一種常見的 TTS 策略。
我們常用的多數投票 / 自我一致性(Self-Consistency)可以視為是最樸素的 TTS 技術。比如讓模型對一道數學題生成 10 個推理過程,最后選出現次數最多的答案。這種看似簡單的方法,卻能顯著提升模型推理的準確率 —— 代價是多花幾倍計算時間。
隨著任務難度提升,這種暴力提升采樣次數的做法效率越來越低。于是研究者們引入了額外的打分模型,比如一個過程獎勵模型(PRM),從而開發了更先進的 TTS 算法。
- Beam Search:(左圖)每次采樣得到的路徑由 PRM 打分,保留得分最高的 k 條推理路徑繼續深入,避免在錯誤方向浪費資源;
- DVTS(Diverse Verifier Tree Search):(右圖)同時維護多個獨立的推理樹,每棵樹向下探索 PRM 打分最高的路徑。強迫模型探索不同解題思路,減少 "一條道走到黑" 的風險。
不過這類方法仍然存在兩個問題。
兩大痛點
- 思路太單一:明明生成了多條推理路徑,最終卻都往一個方向扎堆(路徑同質化)。這是由 PRM 的局限性帶來的:并不完美的 PRM 打分具有隱式的偏好,選出的路徑往往具有一定的共性。這有時會導致一些思路不同但并未出錯的解題路徑打分略低未能被繼續探索。
- 中間結果浪費:推理過程中產生的大量中間過程被直接丟棄。以 Beam Search 為例,假設采樣次數為 16,束寬為 4,則采樣中 75% 的步驟將被直接丟棄。這其中不乏一些優質的正確的解題思路,但是這些中間過程并未有效貢獻到最終答案的決策中。
我們的解法:給推理過程 "設檢查點"
針對這些問題,我們提出了 SRCA(Stepwise Reasoning Checkpoint Analysis) 框架,該框架包含三個關鍵組件:
- 檢查點注入:強制模型在每一步推理后暫停并輸出階段性答案。
- 答案聚類搜索:把檢查點答案一樣的推理路徑歸為一組,并從每組內選擇路徑繼續推理。
- 檢查點候選增強:收集所有檢查點答案加入到最終答案的選擇。
下面是每個組件的具體介紹。
檢查點注入(Checkpoint Injection):打斷推理并預測答案
檢查點注入是 SRCA 的基礎技術,后續的 ACS 和 CCA 算法全部依賴于檢查點注入收集到的中間答案,核心思路是強制模型在每一步推理后暫停并輸出階段性答案。早期的工作中亦有類似的探索,chain-of-probe (https://aclanthology.org/2025.findings-naacl.140/) 同樣是利用暫停推理收集答案的思路觀測模型推理時置信度 (confidence) 的變化以判斷模型推理是否準確。而檢查點注入則更關注模型階段性推理的答案本身,具體流程如下:
- 檢測步驟結束符(如 "### Step"):當檢測到此類字段時,說明 LLM 的上一步推理已經結束,可以進行答案檢查。
- 插入提示 "So the answer is":我們通過插入后綴強行改變上下文,模型沿著新的上下文繼續解碼,輸出它所認為的答案。
- 記錄檢查點答案:該答案是我們后續改進搜索策略和投票的重要依據。
通過這樣的方式,我們可以收集到模型基于當前推理步驟得出的答案。這種 “中間答案” 盡管并不完整和精確,但它們在一定程度上可以代表模型在當前的思考過程,比如兩條推理路徑得出的中間答案是一樣的,我們則可以認為這兩條推理路徑目前解題的思路和進度是類似的。收集到中間答案后,通過合理的 KV Cache 管理,我們可以將推理狀態回滾到上一步推理結束的時刻,從而避免反復推理降低計算開銷。
答案聚類搜索(ACS):防止 “思路扎堆”,鼓勵不同解法
基于檢查點答案,我們重新設計了路徑搜索策略,提出了 Answer Clustering Search 算法。傳統方法(如 Beam Search)雖然讓模型嘗試多條路,但 PRM 打高分的路徑往往類似,這就容易提前扼殺搜索路徑的多樣性,導致最終錯過可能的正確答案。
針對路徑同質化問題,ACS 在檢查點執行雙層篩選機制:
- 組內擇優:將同中間答案的路徑歸組,按組內 PRM 總分排序
- 組間競爭:采用輪詢調度(Round-Robin),按總分順序從每組抽取最優路徑
這樣保證了不同解題方向(不同組)都有機會保留至少一條 “種子選手” 繼續發展。即使某一種方法(組)目前分數不是最高,只要它整體有潛力,它最好的那條路也有機會被選上。這就大大增加了解題思路的多樣性,避免大家一窩蜂擠到一條(可能錯的)思路上。
檢查點候選增強(CCA):搶救 “半成品好答案”,變廢為寶
在傳統樹搜索(如 Beam Search / DVTS)中,只有那些最終走完全程的路徑才有資格參與最終答案的評選。大量未完成的中間推理步驟被直接丟棄。CCA 通過收集復用這些未完成路徑的檢查點答案提升模型推理的準確性:
- 在每一步推理之后,記錄收集所有的檢查點答案。
- 即使一條路沒走完,它在某個步驟得出的那個中間答案,也可能是最終答案。所以 CCA 會把每個中間答案連同它走到這一步的推理過程,都打包成一個獨立的候選答案。這就像把那些半成品搶救出來。
- 當所有路徑都推理結束后(無論是走完還是被淘汰),最終的答案評選不再是只看那幾條 “完整” 路徑的最終答案。CCA 會把所有收集到的這些 “半成品答案” 和完整路徑的最終答案,全部放在一起,根據 PRM 的打分選擇最高者。
這樣極大減少了 “好答案被中途埋沒” 的情況。即使模型后面推理跑偏了,只要它在某個步驟 “靈光一現” 得出了正確結果,CCA 就能把它撈回來,給模型一個 “后悔藥”。這大大提高了計算資源的利用率。下面是一個具體的示例:
如圖所示,模型推理完成得到的答案是 9,而正確答案是 27。但回顧推理過程中的檢查點答案可以發現,模型在第 4 和第 5 步已經得出了 27 這個答案,而錯誤出在第 6 步 ——9 是一個完全平方數而不是平方立方數。而 CCA 記錄收集了所有檢查點答案,并綜合考慮所有候選答案選出最終結果。可以看到第 5 步的檢查點答案得到了最高分 0.7192,該答案被 CCA 恢復并修正了錯誤答案。
實驗結果
TL;DR:
- SRCA 框架加持的 1B 小模型在 MATH500 數據集上達到 65.2% 準確率,首次超越參量 70 倍的 70B 大模型(65.0%)
- 通過答案聚類搜索(ACS)優化路徑多樣性,SRCA 僅需 16 次采樣即可達到其他 TTS 方法 128 次采樣的精度。在同等硬件條件下,推理效率提升達 8 倍,從而降低計算成本。
- 檢查點候選增強(CCA)策略成功從中間步驟拯救 19.07% 的正確答案。這些答案誕生于推理中途,卻因后續路徑偏差被丟棄。CCA 通過復用高質量中間結果,構建了強大的錯誤容忍機制。
- 設置合理閾值,當候選池中出現超過閾值的檢查點答案即停止推理輸出答案,平均可節省 27% 的推理步驟,推理準確率輕微下降 0.58%。
#語音分離最全綜述來了
清華等團隊深度分析200+文章,系統解析「雞尾酒會問題」研究
語音分離領域針對具有挑戰性的 “雞尾酒會問題”,隨著深度神經網絡 (DNN) 的發展,該領域取得了革命性的進展。語音分離可以用于獨立應用,在復雜的聲學環境中提高語音清晰度。此外,它還可以作為其他語音處理任務(如語音識別和說話人識別)的重要預處理方法。
為了應對當前的文獻綜述往往只關注特定的架構設計或孤立的學習方法,導致對這個快速發展的領域的理解碎片化的現實情況,清華大學、青海大學、南京大學、南方科技大學、中國科學院大學、字節跳動的研究者們全面調研了該領域的發展和最前沿的研究方法,在深度學習方法、模型架構、研究主題、評測指標、數據集、工具平臺、模型效果比較、未來挑戰等多個維度,撰寫了一項統一、全面的綜述論文,對?200 余篇代表性論文進行了系統歸納和分析。
表1?基于深度學習的語音分離最新調查與綜述的比較分析
- 論文鏈接:https://arxiv.org/abs/2508.10830
- Methods Search:https://cslikai.cn/Speech-Separation-Paper-Tutorial/
- Github鏈接:https://github.com/JusperLee/Speech-Separation-Paper-Tutorial
問題定義
作者們從語音分離領域的宏觀角度出發,根據混合說話人數量是否已知將已知人數分離和未知人數分離兩類。當說話人數固定且已知時,網絡輸出固定個數的通道,可以通過深度聚類 (Deep Clustering) 或 Permutation Invariant Training(PIT,排列不變訓練)等策略解決輸出順序不確定的 “排列歧義” 問題。對于未知人數的情況,模型需要動態決定輸出通道數并判斷何時結束分離。這帶來巨大挑戰:如說話人排列組合隨人數增加呈指數擴展、需要在分離質量與終止時機之間權衡避免欠分離或過分離等。為應對這些問題,研究者提出了遞歸分離、動態網絡等框架來逐步提取不定數量的聲源。作者們從問題定義部分明確了語音分離任務的目標和難點,為后續技術討論奠定了基礎。
圖 1 已知 / 未知聲源數量的語音分離概述。
學習范式
作者們分類總結了學習范式,比較了不同方法的適用場景和優缺點,為讀者理解監督與非監督方法在語音分離中的權衡提供了清晰脈絡。重點對比了有監督和無監督(含自監督)學習方法。有監督學習利用配對的混合音頻及純凈源音頻進行訓練,是目前最成熟的范式。針對有監督訓練中不同源輸出無法一一對應的標簽置換問題,研究者提出了兩類經典方案:
一是深度聚類方法(DPCL),通過神經網絡將混合語音的時頻單元映射到高維嵌入空間,再將嵌入向量聚類以生成每個聲源的掩膜,從而避免直接輸出固定順序的源信號;
二是 Permutation Invariant Training(PIT)方法,在訓練時對網絡輸出的來源標簽進行動態匹配,只保留誤差最小的排列來更新模型,從而使網絡學習到與輸出排列無關的分離能力。
圖 2 受監督的語音分離工作流程。
無監督學習則不依賴配對的干凈源參考,探索利用未標注的混合語音直接訓練分離模型。例如,MixIT(混合 - 分離訓練)方法通過將兩段混合語音再混合作為輸入,讓模型輸出更多分量并設計損失函數僅依賴輸入混合物,實現無需純凈源標簽的訓練。這類方法以及基于生成模型的自監督策略(如變分自編碼器 VAE 方法、擴散模型等)為無法獲得干凈訓練數據的場景提供了新思路。
模型架構
模型架構部分系統總結了語音分離模型的核心組成和演進路線。典型架構包含編碼器、分離網絡和解碼器。
圖 3 不同方案的發展脈絡
綜述按網絡類型歸納了主要的分離器架構:
基于 RNN 的模型利用循環神經網絡擅長捕獲語音信號中的長時依賴關系。早期很多方法在頻域用雙向 LSTM 生成掩膜;后來出現直接處理時域波形的端到端模型(如 TasNet 系列 ?),避免了相位重建難題并提升效率。代表性的 Dual-Path RNN(雙路徑 RNN)通過劃分長序列為短塊并在塊內和塊間雙路徑循環處理,高效建模長序列,被視為 RNN 架構的里程碑。
基于 CNN 的模型利用卷積神經網絡強大的局部特征提取能力,適合直接對原始波形建模。Conv-TasNet 等時域卷積模型通過空洞卷積等技術兼顧短時細節和長程依賴,在無需頻域處理的情況下取得了優異分離效果。基于自注意力的模型(Transformer 及其變種)引入了全局序列建模能力,在語音分離中用于捕獲長距離依賴并建模復雜場景下源間關系。
近年來出現的 SepFormer 等 Transformer 架構進一步刷新了分離性能。還有混合架構將上述優勢結合,例如將 CNN 的局部建模和 RNN/Transformer 的長程建模相融合,以兼顧不同尺度的信息。
除了分離網絡,綜述還討論了音頻重構策略:一類是掩膜估計,即模型輸出每個源的時間頻率掩膜,乘以混合后再重建源信號;另一類是直接映射,即模型直接輸出各源的波形或特征表示。掩膜方法簡單直觀且易于結合頻域特征,而直接法避免誤差傳播,有望獲取更高保真度。
總體而言,本節脈絡清晰地展現了模型架構從早期循環網絡到卷積、再到自注意力和混合模型的演進,以及各種重構方式的權衡,凸顯了架構創新對性能提升的驅動作用。
評估指標
評價語音分離效果需要科學全面的指標體系,以便衡量模型性能、指導算法優化并確保滿足實際應用需求。該綜述將評估指標分為主觀和客觀兩大類。綜述對比了各種指標的優劣:主觀評價貼近人耳體驗但難以大規模獲取,客觀指標高效客觀但各自側重不同方面,需要結合使用。綜合運用主客觀評價能夠更完整地刻畫語音分離系統的性能,為研究和應用提供可靠依據。
表 2 不同評價指標的對比
數據集
公開數據集為語音分離研究提供了標準測試,他們按照單通道和多通道對主流數據集進行了總結。通過對數據集的梳理,研究者可以了解各數據集所覆蓋的場景和難度,有助于選擇合適的數據集來評估算法并發現當前研究還未覆蓋的場景(例如更長時段對話、開放域噪聲環境等),從而指導未來數據收集和模型開發。
表 3 不同數據集的比較
實驗結果
他們匯總了不同模型在各標準數據集上的分離性能對比,勾勒出語音分離技術近年來的進步軌跡。作者列舉了眾多具有代表性的模型在若干公開基準上的評測結果,并通過圖表展示性能隨時間的提升趨勢。
例如,在經典數據集 WSJ0-2mix 上,早期模型(如 DPCL、uPIT-BLSTM 等)能達到約 10 dB 的 SDR;隨后基于深度學習的端到端模型(如 Conv-TasNet)將性能推升到 12 dB 以上;最近兩三年的先進架構(如 SepFormer、DPRNN 系列、雙路 Transformer 等)更是將 SDR 提升到 20 dB 左右,接近定量評測所能達到的上限。這些結果直觀證明了架構創新和訓練范式改進對分離效果的巨大推動作用。
不僅如此,綜述還比較了模型在不同數據集上的表現差異:例如在含噪聲混響的 WHAM! 和 WHAMR! 上,模型性能相對無噪條件下降明顯,說明噪聲魯棒性仍是挑戰;這種多維度的結果對比幫助讀者了解各類方法的優勢和局限:有的模型在干凈近場語音下接近完美,但在遠場或噪聲場景下性能下滑;有的方法擅長分離兩三人對話,但擴展到更多說話人時代價巨大。通過統一的結果匯總與分析,作者提供了對當前最先進技術水平的客觀評估,并據此指出了亟待攻克的薄弱環節。
圖 4 語音分離模型在 WSJ0-2mix 上隨時間的變化表現
工具平臺
為了推動研究復現和應用落地,綜述還介紹了當前常用的開源工具和平臺,這些軟件庫為語音分離任務提供了便利的開發接口和訓練框架。對比了各工具的功能側重點,例如有的注重學術研究易用性,有的側重工業優化和實時性能,也指出了當前工具鏈存在的局限,如對最新算法的支持仍需跟進等。通過了解這些平臺,研發人員可以更高效地復現論文結果、搭建原型系統,加速從研究到應用的轉化。
表 4 不同開源工具的對比
挑戰與探索
在對現狀全面總結的基礎上,深入討論了語音分離領域當前存在的熱點難題和未來可能的探索方向。
首先,長時段音頻處理,在實際應用中(如會議記錄、連續對話)需要處理數分鐘甚至更長的音頻,如何在保證分離連續性的同時控制模型復雜度和內存開銷。
其次,移動端和嵌入式應用要求分離模型具備較小的參數量和計算量,因此研究者正探索剪枝、量化、知識蒸餾以及新的高效架構(如高效卷積、高效自注意力等)來減小模型體積,同時維持性能。
第三,因果(實時)語音分離也是熱點之一:實時通信和在線處理要求算法只能利用當前及過去幀的信息,不能窺視未來,這對模型的延時、緩存機制提出嚴格要求。如何在嚴格的因果約束下仍然取得接近離線模型的分離效果。
第四,生成式方法的崛起為語音分離提供了新思路:包括生成對抗網絡(GAN)和擴散模型在內的新型生成模型開始用于語音分離,以期生成更逼真的語音并改善分離質量,尤其在弱監督或無監督場景下展示出潛力。
第五,預訓練技術正逐步引入本領域:借鑒 ASR 等領域的成功,大規模自監督預訓練(如 wav2vec 2.0 等)或基于音頻編碼器的預訓練模型可以提供強大的通用特征,在低資源分離任務上顯著提升性能。未來可能出現專門針對語音分離預訓練的模型或利用語音神經編碼器壓縮感知混合信號的新范式。
第六,目標說話人提取作為語音分離的變種也備受關注:即利用已知的目標說話人特征(如說話人注冊音頻)從混合中提取該說話人的語音,相比盲分離加入了先驗信息,如何高效利用目標說話人嵌入并與分離網絡融合是研究重點。最后,綜述強調了與其他任務的聯合建模趨勢:語音分離正日益與語音識別、說話人識別 / 分離、語音增強等任務結合,形成端到端的聯合優化框架。
#Diffusion Language Models Know the Answer Before Decoding
其實,擴散語言模型在最終解碼之前很久,就已確定最終答案
隨著擴散語言模型(DLM)在各個領域的快速發展,其已成為自回歸(AR)模型有力的替代方案。與 AR 模型相比,DLMs 的主要優勢包括但不限于:高效的并行解碼和靈活的生成順序。
盡管 DLMs 具有加速潛力,但在實際應用中,其推理速度仍慢于 AR 模型,原因在于缺乏 KV-cache 機制,以及快速并行解碼所帶來的顯著性能下降。
本文,來自香港理工大學、達特茅斯學院等機構的研究者嘗試從一個不同的角度來加速 DLMs 推理,這一思路源于一個長期被忽視卻極具潛力的現象:早期答案收斂。
- 論文標題:Diffusion Language Models Know the Answer Before Decoding
- 論文地址:https://arxiv.org/pdf/2508.19982
- 項目地址:https://github.com/pixeli99/Prophet
通過深入分析,研究者觀察到:無論是半自回歸重掩碼還是隨機重掩碼場景下,有極高比例的樣本在解碼早期階段即可獲得正確解碼。這一趨勢在隨機重掩碼中尤為顯著,以 GSMK 和 MMLU 數據集為例,僅需半數優化步驟即可分別實現 97% 和 99% 的樣本正確解碼。
受此發現啟發,該研究提出了?Prophet,一種無需訓練的快速解碼策略,該策略專為利用早期答案收斂特性而設計。Prophet 通過持續監控解碼過程中 top-2 答案候選之間的置信度差距,自適應地判斷是否可安全地一次性解碼剩余所有 token。
實驗表明,該方法在保持高質量生成效果的同時,實現了顯著的推理加速(最高達 3.4 倍)。
方法介紹
Prophet 是一種無需訓練的快速解碼方法,用來加速擴散語言模型的生成。它的核心思路是:在模型預測結果趨于穩定時,一次性提交所有剩余 token 并提前生成答案,這一過程被稱為早期提交解碼(Early Commit Decoding)。與傳統的固定步數解碼不同,Prophet 會在每一步主動監測模型的確定性,從而能夠即時做出是否終止解碼的決策。
早期提交解碼。何時終止解碼循環的決定可以定義為最優停止問題。在每一步,都必須在兩種互相沖突的成本之間權衡:繼續執行額外細化迭代的計算成本,與因過早決定而可能帶來錯誤的風險。計算成本取決于剩余步數,而錯誤風險則與模型的預測置信度呈負相關,其中「置信差距」可作為其穩健指標。
算法 1 概述了完整的 Prophet 解碼過程:
實驗
實驗結果如表 1 所示。
在通用推理任務上,Prophet 展現了與完整基線相當甚至更優的性能。例如,在使用 LLaDA-8B 時,Prophet 在 MMLU 上達到 54.0%,在 ARC-C 上達到 83.5%,兩者在統計上均與完整的 50 步解碼結果相當。
更有趣的是,在 HellaSwag 上,Prophet(70.9%)不僅超過了完整基線(68.7%),還優于半步基線(70.5%),這表明早期提交解碼能夠避免模型在后續帶噪聲的精煉步驟中破壞已正確的預測。
同樣地,在 Dream-7B 上,Prophet 在各項基準測試中依然保持了競爭力:在 MMLU 上達到 66.1%,而完整模型為 67.6%,僅有 1.5% 的微小下降,但帶來了 2.47 倍的速度提升。
在更復雜的數學和科學基準測試上,Prophet 同樣展現了其可靠性。以 GSM8K 數據集為例,基于 LLaDA-8B 的 Prophet 達到 76.8% 的準確率,幾乎與完整基線的 77.1% 相當,并且優于半步基線的 76.2%。
總而言之,實證結果強有力地支持了本文的核心假設:擴散語言模型往往在最終解碼步驟之前很早就已經確定了正確答案。
Prophet 成功利用了這一現象,通過動態監測模型預測的置信度,一旦答案趨于穩定,便立即終止迭代精煉過程,從而在幾乎不影響任務性能的情況下顯著節省計算開銷,在某些場景下甚至還能提升表現。這與靜態截斷方法形成了鮮明對比,后者存在過早終止解碼、從而損害準確率的風險。
因此,Prophet 提供了一種穩健且與模型無關的解決方案,有效加速 DLM 的推理過程,提升了其在實際應用中的可行性。
了解更多內容,請參考原論文。
#宇樹科技官宣:年內提交IPO,或將沖刺科創板
宇樹的上市進程,終于又向前邁進了一步。
9 月 2 日晚間,杭州宇樹科技股份有限公司(簡稱「宇樹科技」)發布聲明說,預計于今年四季度向證券交易所提交上市申請文件,立即引來了大量關注。
完整公告內容如下:
宇樹科技自成立以來一直是一家「民用機器人公司」。目前,公司正在積極推進首次公開募股(IPO)的準備工作。根據 IPO 計劃,公司預計將在 2025 年 10 月至 12 月期間向證券交易所提交備案文件,屆時公司的相關經營數據將會正式披露。
接下來簡要介紹一下公司產品的收入結構。我們以 2024 年為例(具體數據應以后續 IPO 備案文件披露的信息為準):
四足機器人、人形機器人及零部件產品的銷售額分別約占 65%、30% 和 5%。
其中,大約 80% 的四足機器人用于科研、教育和消費領域,其余 20% 用于工業領域,如檢測和消防。人形機器人全部應用于科研、教育和消費領域。
自成立以來,宇樹科技一直致力于高性能通用機器人在民用領域不同產業中的應用,并在公司官網、產品手冊、合作協議以及各類文件中明確聲明和限制相關用途。
特此提醒各方需謹慎識別,不要將其他公司的機器人產品或第三方改裝設備誤認為宇樹產品。
我們希望宇樹機器人能夠為全世界人民帶來更安全、更愉快的生活。
據分析,宇樹科技沖擊科創板的概率較大。宇樹 IPO 的消息令人振奮,有人稱「這是機器人領域最值得期待的 IPO 之一」。
宇樹科技成立于 2016 年 8 月,此前在今年 7 月,證監會官網信息顯示該公司已開啟上市輔導,輔導機構為中信證券。備案報告顯示,宇樹科技控股股東、實際控制人為王興興,合計控制公司 34.763% 股權。
此前,宇樹科技共宣布了 10 輪融資,最近的 C 輪結束于今年 6 月,由中國移動旗下基金、騰訊、錦秋、阿里、螞蟻、吉利資本共同領投,估值超過 100 億元。
作為「杭州六小龍之一」,宇樹科技在全球科技領域具有極大影響力,其每次發布的新型機器人、demo 展示都能吸引全網的目光。在xx智能技術快速發展的今天,宇樹的資本化進程備受矚目。
與新興行業大量創業公司持續虧損的情況不同,宇樹的商業化進展也速度驚人。今年就有宇樹科技投資人透露說,自 2020 年以來,該公司財務報表每年都保持盈利狀態,宇樹科技隨后也證實了該消息。
據此前統計,宇樹科技人形機器人出貨量位居全球前列,四足機器狗全球市場占有率更是超過了 60%,大尺寸通用人形機器人業務范圍覆蓋全球 50% 以上的國家和地區。
在 6 月份,宇樹科技創始人王興興曾在夏季達沃斯論壇上表示,宇樹科技年度營收已超 10 億元人民幣,公司規模達到約 1000 人。
在對未來機器人技術落地的展望中,宇樹科技也保持了樂觀。在今年 8 月世界機器人大會上,王興興表示,未來幾年,全球人形機器人行業出貨量可以達到每年翻一番的水平。在出現更大技術突破的情形下,未來 2 到 3 年的年出貨量可達到幾十萬臺。
隨著不久之后宇樹科技 IPO 申報文件的提交,其研發投入占比、訂單轉化率等關鍵數據將被揭曉,這不僅關系到宇樹的估值,也可以讓我們為機器人大規模落地的真實進度做出具體的判斷。
自春晚扭秧歌秀以來,宇樹機器人便受到了前所未有的關注。最近一段時間,宇樹科技正在不同的賽場檢驗自身機器人的成色,比如在 2025 年首屆世界人形機器人運動會中,奪得了 1500 米、400 米、100 米障礙賽、4×100 米賽事的金牌。
圖源:Unitree 宇樹公眾號
這幾天,宇樹格斗機器人 G1 首次出現在 UFC 賽場,大放光彩。
如今,在優必選成為人形機器人第一股之后,宇樹科技也積極推進上市進程,以期進一步鞏固其在四足機器人和通用人形機器人領域的領先地位。
安全同樣重視
在宣布準備 IPO 的同時,宇樹科技也對仿生機器狗 Go1 進行了安全聲明。
關于近期部分博主聲稱 Go1 機器人存在后門漏洞的情況,宇樹科技的內部調查結果如下:
經檢查和復現,該問題被確認為一起安全漏洞。黑客非法獲取了 Go1 使用的第三方云端隧道服務的管理密鑰,并利用其在用戶設備上以高權限修改數據和程序,從而獲得操作控制權和視頻流訪問權限,威脅到了用戶隱私與安全。該密鑰由第三方云服務商「Zhexi Cloud」提供、存儲和認證。
Go1 機器狗系列發布于 2021 年(已停產約兩年),實際在線使用的數量極少。并且,機器人默認不聯網,需用戶主動設置才可聯網。此后推出的機器人系列均未再采用該方案,而是使用更安全的升級版本,因此不受影響。
針對此類漏洞,宇樹科技已在 2025 年 3 月 24 日更換了該隧道服務的管理密鑰,并在 3 月 29 日徹底關閉了該隧道服務。此問題將不再影響 Go1 系列產品的使用。
「如果想要機器人成為我們日常生活的一部分,安全和信任是基礎。」宇樹科技此次的聲明很好地踐行了這一點。
.
#RoboMirage
從復刻魔術開始,RoboMirage打開了機器人仿真的新世界
在xx智能的發展路徑中,如何獲得海量且高質量的數據是行業繞不開的核心問題。
如果說大語言模型依賴于互聯網規模的語料庫,那么xx智能的成長同樣需要規模化的交互經驗。現實中,收集這些數據的代價極高:機械臂等硬件部署成本高,單臺投入就需數萬元,且難以規模化;數據采集環節依賴經驗豐富的數采員且耗時漫長。而在仿真環境中,智能體則可以以更低成本、更高效率進行無限次試錯,從而快速積累大規模交互經驗。
正因如此,過去幾年中,仿真器已經成為xx智能發展的重要支撐工具,也催生出一批優秀的開源與商業化平臺。它們讓機器人學、強化學習和智能體研究得以快速推進,奠定了行業的基礎。
但隨著研究不斷深入,行業對于數據提出了更高要求:更高的物理精度,以保證數據與現實世界的貼合度;更豐富的交互類型,覆蓋剛體、軟體、流體等復雜場景;更強的擴展性與穩定性,既支持科研中的微觀動力學細節,也能滿足產業應用的大規模仿真需求。
在這樣的背景下,RoboScience 從零到一自研了面向xx智能的高精度通用物理仿真平臺 「RoboMirage」。
,時長01:45
核心特性
「RoboMirage」具有以下核心特性:
1. 全物體類型兼容的可擴展接觸建模框架
支持剛體、1D/2D/3D 可形變體、多關節結構及各種機器人末端執行器的多樣接觸,具備強耦合仿真能力,兼容未來可微仿真與高精度訓練需求,且允許用戶自定義擴展功能,為多樣化場景提供靈活適配的底層架構。
2. 高精度的多體動力學仿真能力
高精度、無穿透且時間一致性的接觸力仿真,支持剛體、軟體及復雜接觸的強耦合動力學模擬(如復雜布料與機器人末端執行器的強耦合互動),可捕捉動靜摩擦、細微力變化等微觀動力學細節,其精度遠超傳統動力學模擬器,尤其適配機器人領域的復雜仿真需求。
3. 工業級穩定算法保障
依托隱式積分,凸優化方法等嚴格數學理論準確求解介質力學問題,從算法層面確保仿真過程的穩定性與時間一致性,捕捉每一個動力學細節,徹底解決穿模問題,可滿足裝配、抓取等工業級任務對仿真可靠性的嚴苛要求,為復雜場景提供持續穩定的運行保障。
4. Pythonic 設計,簡單易用
框架設計注重用戶體驗,接口友好,易于上手,方便開發者快速集成與定制,助力高效仿真開發。
5. 先進的 GPU 驅動異構加速技術
充分利用 GPU 大規模并行計算能力,結合數據導向編程,實現工業級精度下的高性能快速仿真,顯著優于傳統有限元分析及現有機器人仿真平臺。
魔術場景
為了更直觀地展示「RoboMirage」的強大能力,先來看看幾個經典的魔術場景:
金屬環懸掛在細繩上端,松開手指讓它自由下落卻又穩穩懸停;兩根橡皮筋分別被雙手兩指撐起后交錯,左右摩擦后一拉實現穿越;將紙牌分成兩疊,手指發力使其從兩側依次均勻從中間落下…… 這些看似神奇的瞬間,實際上蘊含著物理世界中最微妙的力與平衡法則。
正是 RoboScience 的仿真物理平臺「RoboMirage」,以高精度仿真技術復刻了魔術世界中這些復雜精妙的 ?Magic Moment。依托精準計算模型與百微米級控制能力,它將現實中的細微互動轉化為可計算的物理過程,重新拓展了仿真技術的邊界。
首先看經典魔術明日環(Tomorrow Ring):「RoboMirage」可模擬金屬環與柔性繩索間復雜的接觸纏繞,其中涉及摩擦滑動與剛柔體耦合,這要求引擎穩定處理動態接觸,避免了穿模或解算失敗。
橡皮筋穿越魔術的仿真難點則在于兩個彈性體的相互纏繞、拉伸與形變,需精準模擬其粘滯阻尼、張力變化及自碰撞特性。
而實現對洗撲克牌仿真的核心挑戰是,模擬多張紙牌以極小時間步交錯插入時的接觸力與摩擦細節,關鍵在于維持接觸連續性、防止穿透。
至于抽桌布魔術的仿真則需高精度捕捉布料瞬時滑動,以及布料移除瞬間物體的摩擦慣性與受力響應,同時兼顧快速拉拽的非平衡動態與上方物體的穩定性模擬。
需要強調的是,雖然「RoboMirage」是 RoboScience 打通 Sim-to-Real 路徑的核心基礎設施,但它并不構成 RoboScience 數據生態的全部。
除了仿真生成的大量訓練與驗證樣本外,RoboScience 的研發與驗證流程還融合了來自互聯網語料與知識庫、結構化技術文檔、說明書(產品手冊、CAD、規格表等)等以及少量真機實驗的多模態傳感數據與操作日志(力、位姿、觸覺、視頻等)。這些現實世界與文本類數據為仿真結果提供驗證依據,幫助微調感知與策略模型,增加語義約束,并構建真實場景的基線測試。
換言之,RoboScience 既擁有高精度的仿真 “基座”,又具備多源數據支撐的研發與驗證體系?—— 二者協同作用,有效縮小 Sim-to-Real Gap,加速算法向現實環境的穩健遷移與規模化落地。
家具拼裝
此外,RoboScience 目前還完成了迄今最復雜、精度最高、步驟最多的xx操作任務 —— 家具拼裝。
模型讀取說明書后即可啟動拼裝:深度理解零件結構邏輯,實現多部件的檢測、感知、插拔與旋轉配合,還能自主分解多步驟任務,完成多關節雙臂協同運動。
依托自適應插接路徑規劃和精細接觸力調控策略,系統成功實現了高精度、高穩定性的拼裝過程,無論是在零部件定位還是微小運動控制上均表現出卓越的能力。通過實時獲取插接產生的反饋力,模型還能動態調整操作策略。
即便拼裝過程中遭用戶拆解干擾,模型仍能自動恢復狀態,接續完成后續拼裝步驟。通過該框架,系統可以用標準化方法分析不同場景下的物理接觸,例如機器人抓取物體時的力反饋、變形預測或運動規劃,無需為每種對象或機器人單獨開發算法。?
結語
通過高精度仿真引擎與多源數據體系的協同,RoboScience 不僅在高復雜度xx操作任務(如全自動拼裝家具)中實現了前所未有的穩定性與精確度,也為更廣泛的現實應用建立了堅實技術基座。
接下來,RoboScience 將持續突破仿真精度、泛化能力與真實交互的一體化邊界,讓機器人能夠在更多元、更開放的場景中自主感知、推理與執行任務。
RoboScience 相信,這一技術路線將加速xx智能跨越從實驗室到現實世界的鴻溝,并催生全新的人機協作模式 —— 讓智能機器人真正成為人類生活與產業中值得信賴的伙伴與助手。
.
#谷歌放出Nano Banana六大正宗Prompt玩法
手殘黨速來
最近幾天,谷歌 Nano Banana 可是被廣大網友玩出了新花樣。
比如制作精致可愛的產品照片:
來源:https://x.com/azed_ai/status/1962878353784066342
將 13 張圖像合并為單個圖像 :
來源:https://x.com/MrDavids1/status/1960783672665128970
給人一鍵換衣:
反正你想到的,想不到的腦洞,都被廣大網友挖掘出來了。
但別忘了,這些效果可不是憑空生成的。背后真正的魔法,其實是提示詞。網友們正是用一條條巧妙的提示詞,把這個模型玩出了無限可能。
就在剛剛,谷歌官方公布了 Nano Banana 六個文本轉圖像提示:
原文鏈接:https://x.com/googleaistudio/status/1962957615262224511
根據這些提示,你可以進行以下操作:
- 文本生成圖像:通過簡單或復雜的文本描述生成高質量圖像。
- 圖像 + 文本生成圖像(圖像編輯):提供一張圖片,并使用文本提示詞添加、刪除或修改圖像元素,調整風格或顏色。
- 多圖合成與風格遷移:輸入多張圖片,合成新的場景,或將其中一張的風格遷移到另一張上。
- 迭代式優化:通過對話逐步優化圖像,每次做小調整,直到達到理想效果。
- 文本渲染:生成包含清晰、布局合理文字的圖像,適用于 logo、圖表、海報等視覺創作。
谷歌強調,這些指令可以最大限度的發揮 Nano Banana 的圖像生成能力。
接下來,我們看看這些提示具體包含的內容:
1、照片級寫實場景
對于寫實風格的圖像,要像攝影師一樣思考。prompt 中要提及機位角度、鏡頭類型、光線以及細節描寫,這樣可以引導模型生成更逼真的效果。
模板如下:
A photorealistic [shot type] of [subject], [action or expression], set in [environment]. The scene is illuminated by [lighting description], creating a [mood] atmosphere. Captured with a [camera/lens details], emphasizing [key textures and details]. The image should be in a [aspect ratio] format.
下圖使用的完整 prompt 為「A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful. Vertical portrait orientation.」
2、風格化插畫與貼紙
在制作貼紙、圖標或項目素材時,在 prompt 中明確說明需要的風格;另外,如果需要白色背景,記得在 prompt 中提出來。
模板如下:
A [style] sticker of a [subject], featuring [key characteristics] and a [color palette]. The design should have [line style] and [shading style]. The background must be white.
下圖使用的完整 prompt 為「A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white.」
3、圖上添加精準的文字
Gemini 擅長渲染文字。此類任務最好在 prompt 中明確說明文字內容、字體風格(用描述性的方式),以及整體設計。
模板如下:
Create a [image type] for [brand/concept] with the text "[text to render]" in a [font style]. The design should be [style description], with a [color scheme].
下圖使用的完整 prompt 為「Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a coffee bean seamlessly integrated with the text. The color scheme is black and white. 」
4、產品模型與商業攝影
適合在電商、廣告或品牌宣傳時制作干凈、專業的產品照片。
模板如下:
A high-resolution, studio-lit product photograph of a [product description] on a [background surface/description]. The lighting is a [lighting setup, e.g., three-point softbox setup] to [lighting purpose]. The camera angle is a [angle type] to showcase [specific feature].?
Ultra-realistic, with sharp focus on [key detail]. [Aspect ratio].
下圖使用的完整 prompt 為「A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image.」
5、極簡與留白設計
適合用于創建網站、演示文稿或營銷素材的背景,并在其上疊加文字內容。
模板如下:
A minimalist composition featuring a single [subject] positioned in the [bottom-right/top-left/etc.] of the frame. The background is a vast, empty [color] canvas, creating significant negative space. Soft, subtle lighting. [Aspect ratio].
下圖使用的完整 prompt 為「A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image.」
6、連續性藝術(漫畫分鏡 / 分鏡頭腳本)
通過逐格描繪,創作引人入勝的視覺敘事,適合用于開發分鏡頭腳本、漫畫條幅或任意形式的連續性藝術。重點在于清晰的場景描述。
模板如下:
A single comic book panel in a [art style] style. In the foreground, [character description and action]. In the background, [setting details]. The panel has a [dialogue/caption box] with the text "[Text]". The lighting creates a [mood] mood. [Aspect ratio].
下圖使用的完整 prompt 為「A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads "The city was a tough place to keep secrets." The lighting is harsh, creating a dramatic, somber mood. Landscape.」
這一套 prompt 模板學下來,你大概就能掌握使用 Nano Banana 的精髓了。
不過,用戶在使用中還有其他困擾,比如「在對已有圖像進行編輯時,模型往往會返回一張一模一樣的圖像。」
另外有人指出了 Nano Banana 在編輯時存在的更多問題,「它在一致性上表現不如 Qwen 和 Kontext Pro,也不夠穩定,特別是在持續對話過程中。對于文本轉圖像,直接用 Imagen 會更好且更可控。」
大家在使用 Nano Banana 的過程中有哪些獨到的心得與技巧?歡迎在評論區分享出來。
谷歌nano banana官方最強Prompt模板來了
谷歌官方放出 nano banana「六合一」Prompt 模板:一句話把場景、機位、光效寫全,寫實、貼紙、Logo、留白、漫畫 5 大風格直接套用即可出片,零門檻體驗高質量AI生圖。
這幾天爆火的nano banana,讓更多人體驗到AI對圖像生成與處理的革命。
網友們玩瘋了,開發出各類好玩的用法。
有用nano banana直接將照片生成手辦模型的:
左右滑動查看
有人腦洞大開,讓nano banana、Seedance、Kling聯手,將梵高和蒙娜麗莎、戴珍珠耳環的少女等名畫的人物,同時帶到了今天的紐約中央公園里,開啟了一段浪漫的邂逅。
,時長03:29
還有人使用nano banana反過來帶我們穿越回了中土世界。
視頻以第一人稱視角在馬車上疾馳,穿越迥異的區域,充滿了3A游戲大作般的史詩感。
,時長01:31
看到網上流傳的nano banana生成的以假亂真、腦洞大開的圖片和視頻,不知道你是否也開始嘗試使用nano banana了呢?
同樣是生成圖片,有人一句話就出大片,有人寫滿滿一屏幕詞也不對版。
谷歌為了幫助大家快速上手,親自下場為我們帶來了nano banana官方最強Prompt模板!
甭管你暫時是否理解為什么這樣寫,先收藏起來試著套模板就對了!
其中的關鍵是,你要像講故事一樣寫場景。
基于nano banana(Gemini 2.5 Flash Image),這6套Prompt模板覆蓋了寫實、貼紙、文字、產品、留白與分鏡,直接套用就能高質量生圖!
寫實攝影
寫實感強的照片,是離不開攝影師的精心巧思的。
要生成寫實感強的圖像,你得像攝影師一樣思考。
你需要考慮機位、鏡頭類型、光線、細節。
將這些元素加入Prompt后,會引導模型朝更逼真的效果靠近。
即使你不是專業攝影師,只要按照自己的理解多嘗試,也大概率會比未說明這些關鍵要素而直接生成的圖片的效果要好。
示例模板:
A photorealistic [shot type] of [subject], [action or expression], set in [environment]. The scene is illuminated by [lighting description], creating a [mood] atmosphere. Captured with a [camera/lens details], emphasizing [key textures and details]. The image should be in a [aspect ratio] format.
模板大意:
一張寫實風格的[鏡頭類型],[主體],[動作或表情],場景設定在[環境]。畫面由[光線描述]照明,營造出[情緒]氛圍。使用[相機/鏡頭參數]拍攝,突出[關鍵材質與細節]。圖像應為[縱橫比]格式。
示例Prompt:
A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful. Vertical portrait orientation.
Prompt大意:
一張寫實風格的特寫人像:一位日本老陶藝家,臉上被歲月與陽光刻下的深深皺紋,露出溫暖而睿智的微笑。他正仔細端詳一個剛上釉的茶碗。場景位于他質樸、陽光充足的工作室。柔和的黃金時刻光線自窗外傾瀉而入,凸顯陶土的細膩紋理。使用85mm人像鏡頭拍攝,帶來柔和的背景虛化(bokeh)。整體氛圍寧靜而老練。豎版人像構圖。
生成的圖片:
一張寫實風格的日本老陶藝家特寫人像
調用API生圖示例Python代碼:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(model="gemini-2.5-flash-image-preview",cnotallow="A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop with pottery wheels and shelves of clay pots in the background. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay and the fabric of his apron. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful.",
)
image_parts = [part.inline_data.datafor part in response.candidates[0].content.partsif part.inline_data
]
if image_parts:image = Image.open(BytesIO(image_parts[0]))image.save('photorealistic_example.png')image.show()
注意,上述代碼需要你在第11行的contents中輸入Prompt,在第22行的image.save()中輸入你要保存時取的文件名。
后續其他調用API生圖的代碼僅需要修改這兩處即可。
插圖與貼紙
在生成貼紙、圖標、插圖、項目素材這類圖片時,你需要先把風格說清楚。
如果有其他特殊需求,比如需要白底的話,你得明確在Prompt中寫出。
示例模板:
A [style] sticker of a [subject], featuring [key characteristics] and a [color palette]. The design should have [line style] and [shading style]. The background must be white.
模板大意:
一張[風格]的[主體]貼紙,具有[關鍵特征],采用[配色]。設計應當使用[線條風格]與[明暗/上色風格]。背景必須為白色。
示例Prompt:
A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white.
Prompt大意:
一張可愛風(kawaii)貼紙:一只開心的小熊貓戴著迷你竹葉帽,正咀嚼一片綠色竹葉。設計使用粗壯、干凈的描邊,簡單的賽璐璐上色,配色鮮艷。背景必須為白色。
生成的圖片:
一張可愛風(kawaii)的小熊貓貼紙
調用API生圖示例Python代碼:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(model="gemini-2.5-flash-image-preview",cnotallow="A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white.",
)
image_parts = [part.inline_data.datafor part in response.candidates[0].content.partsif part.inline_data
]
if image_parts:image = Image.open(BytesIO(image_parts[0]))image.save('red_panda_sticker.png')image.show()
文本渲染
nano banana在文本渲染這項任務上的表現是格外矚目的。
你只需要把文字內容、字體風格(用描述性的詞描述)、整體設計說明白,就可以產出質量很好的圖片了。
示例模板:
Create a [image type] for [brand/concept] with the text "[text to render]" in a [font style]. The design should be [style description], with a [color scheme].
模板大意:
為[品牌/概念]創建一張[圖像類型],其中包含文本「[要渲染的文本]」,使用[字體風格]。設計應為[風格描述],并采用[配色方案]。
示例Prompt:
Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a coffee bean seamlessly integrated with the text. The color scheme is black and white.
Prompt大意:
為一家名為「The Daily Grind」的咖啡店設計一個現代、極簡的Logo。文字使用干凈、粗體的無襯線字體。設計帶有一個簡潔、風格化的咖啡豆圖標,并與文字無縫融合。配色為黑白。
生成的圖片:
為一家名為「The Daily Grind」的咖啡店生成的現代極簡風Logo
調用API生圖示例Python代碼:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(model="gemini-2.5-flash-image-preview",cnotallow="Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a a coffee bean seamlessly integrated with the text. The color scheme is black and white.",
)
image_parts = [part.inline_data.datafor part in response.candidates[0].content.partsif part.inline_data
]
if image_parts:image = Image.open(BytesIO(image_parts[0]))image.save('logo_example.png')image.show()
商業攝影
為品牌打廣告時,打造一個干凈、專業的產品照通常是一個比較不錯的選擇。
商業感=干凈背景+可控布光+展示賣點的機位。
示例模板:
A high-resolution, studio-lit product photograph of a [product description] on a [background surface/description]. The lighting is a [lighting setup, e.g., three-point softbox setup] to [lighting purpose]. The camera angle is a [angle type] to showcase [specific feature]. Ultra-realistic, with sharp focus on [key detail]. [Aspect ratio].
模板大意:
一張高分辨率、影棚布光的[產品描述]產品照,置于[背景表面/描述]上。燈光為[布光設置,如三點柔光箱布光],用于[照明目的]。機位為[角度類型],以展示[特定賣點]。超寫實,對[關鍵細節]進行銳利對焦。[縱橫比]。
示例Prompt:
A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image.
Prompt大意:
一張高分辨率、影棚布光的產品照:一只極簡風的消光黑陶瓷咖啡杯,擺放在拋光的混凝土表面上。燈光為三點柔光箱布光,營造柔和的高光并消除硬陰影。機位為略抬高的 45 度角,凸顯其干凈的線條。超寫實,對咖啡升起的蒸汽進行銳利對焦。方形圖像。
生成的圖片:
一張高分辨率、影棚布光的極簡黑色陶瓷咖啡杯產品照
調用API生圖示例Python代碼:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(model="gemini-2.5-flash-image-preview",cnotallow="A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image.",
)
image_parts = [part.inline_data.datafor part in response.candidates[0].content.partsif part.inline_data
]
if image_parts:image = Image.open(BytesIO(image_parts[0]))image.save('product_mockup.png')image.show()
極簡主義與留白設計
極簡主義留白設計,非常適合為網站、演示或營銷素材創建背景,方便后面再在圖片上疊加文字。
示例模板:
A minimalist composition featuring a single [subject] positioned in the [bottom-right/top-left/etc.] of the frame. The background is a vast, empty [color] canvas, creating significant negative space. Soft, subtle lighting. [Aspect ratio].
模板大意:
一幅極簡構圖,畫面中只有一個[主體],位于畫面[右下角/左上角等]。背景是一整片空曠的[顏色]純色畫布,創造顯著留白。柔和、克制的光線。[縱橫比]。
示例Prompt:
A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image.
Prompt大意:
一幅極簡構圖:一片精致的紅色楓葉位于畫面右下角。背景是一整片空曠的米白色純色畫布,為文字留出大量留白。來自左上方的柔和、漫射光。方形圖像。
生成的圖片:
一幅極簡構圖:一片精致的紅色楓葉
調用API生圖示例Python代碼:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(model="gemini-2.5-flash-image-preview",cnotallow="A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image.",
)
image_parts = [part.inline_data.datafor part in response.candidates[0].content.partsif part.inline_data
]
if image_parts:image = Image.open(BytesIO(image_parts[0]))image.save('minimalist_design.png')image.show()
漫畫
你可以通過聚焦清晰的場景描述,一格一格地創作吸引人的視覺敘事。
這種方式非常適合做漫畫、故事板等圖片。
示例模板:
A single comic book panel in a [art style] style. In the foreground, [character description and action]. In the background, [setting details]. The panel has a [dialogue/caption box] with the text "[Text]". The lighting creates a [mood] mood. [Aspect ratio].
模板大意:
一格[藝術風格]的漫畫分鏡。前景中,[人物描述與動作]。背景中,[環境細節]。畫面包含一個[對白/旁白框],內容為「[文本]」。用光營造[情緒]氛圍。[縱橫比]。
示例Prompt:
A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads "The city was a tough place to keep secrets." The lighting is harsh, creating a dramatic, somber mood. Landscape.
Prompt大意:
一格粗糲的黑色電影風漫畫,高反差黑白墨線。前景中,一位穿風衣的偵探站在閃爍的路燈下,雨水打濕了他的雙肩。背景中,一家荒涼酒吧的霓虹招牌倒映在水坑里。頂部的旁白框寫著:「在這座城市,想守住秘密并不容易。」用光強硬,營造戲劇而沉郁的氛圍。橫向畫幅。
生成的圖片:
一格粗糲的黑色電影風漫畫分鏡
調用API生圖示例Python代碼:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
# Generate an image from a text prompt
response = client.models.generate_content(model="gemini-2.5-flash-image-preview",cnotallow="A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads \"The city was a tough place to keep secrets.\" The lighting is harsh, creating a dramatic, somber mood. Landscape.",
)
image_parts = [part.inline_data.datafor part in response.candidates[0].content.partsif part.inline_data
]
if image_parts:image = Image.open(BytesIO(image_parts[0]))image.save('comic_panel.png')image.show()
有了以上谷歌官方的強大模板,人人都可以自己創造出高質量圖片了!
先收藏再說,有空了快去親自試試吧!
參考資料:
??https://x.com/googleaistudio/status/1962957615262224511???
#Claude Opus 4.1
Anthropic承認模型降智后仍放任其偷懶?Claude Code用戶信任崩塌中
還記不記得每一次 OpenAI 發布新功能或新模型的時候,總會有一些評論聲稱現有模型能力下降,懷疑大模型「降智」現象的聲音不絕于耳。
排除掉一些有關 OpenAI 對部分地區賬戶的用戶分級機制導致的顯著降級情況,普通用戶也會感覺到大模型時不時的出現問題。
xx編輯部在測試 GPT-5 的時候,感覺模型能力不及預期,也會懷疑是否有「降智」現象的存在。
但無論如何,此前大模型供應商似乎從來沒有正面承認過模型「降智」的問題,用戶的感知也朦朦朧朧的。
OpenAI 的研究科學家 Aidan McLaughlin 前兩天發推聊到了這個現象。
他的意思是,大家(包括他自己)經常會錯誤地認為某個 AI 模型被實驗室「削弱」了,而這種錯誤認知的發生率遠高于他的預期。他甚至覺得,這是一種普遍的心理錯覺,應該被定義成一種新的心理學現象。
但他很快就被庫庫打臉了。
幾天前,Anthropic 發布了旗下模型 Claude Opus 4.1 和 Opus 4 的質量降級事件報告。很罕見地,大模型廠商公開承認模型「降智」的現象。
從 8 月 25 日 17:30 UTC 到 8 月 28 日 02:00 UTC,Claude Opus 4.1 在部分請求中出現了質量下降的問題。用戶可能會遇到智能水平降低、回答格式錯誤或 Claude Code 工具調用異常等情況。
這一問題的原因是 Anthropic 在推理(inference)堆棧中進行了一次更新,但目前已經對 Claude Opus 4.1 回滾了該更新。雖然 Anthropic 經常會進行一些更改來提升模型的效率和吞吐量,但目標始終是保持模型響應質量不變。此外還發現?Claude Opus 4.0 也受到了同樣問題的影響,目前正在對其進行回滾。
并且,Anthropic 在報告中聲稱該事件已經被妥善解決。但 Anthropic 很快被用戶們打臉,直到 9 月 1 日,用戶對于 Claude Code 的負反饋不減反增。
Claude 這波自廢武功的現象正持續性消耗用戶過去的習慣和信任,很多用戶正一點點地轉向 GPT-5。
研究者 Thomas Ricouard 認為:
- Claude Code 暫時 RIP,他不確定 Anthropic 是否真的從推理系統的問題中恢復過來,但就連 Opus 也變得很「懶」。
- Cursor Agent CLI 搭配 GPT-5 表現真的非常棒,尤其是在精心設計的 prompt 下。
在他的推文下面,許許多多的 Claude 用戶有著相同的抱怨,似乎 Anthropic 根本沒有好好修正這個問題,Claude 依然不停地在「偷懶」。
還有人稱,「實際運行起來更加糟糕。」
更有人直接開噴,「以前,Sonnet 4 能夠直接構建一個項目,而現在 Opus 4.1 卻連一個簡單的腳本都生成不了,簡直變成了無用的垃圾。」
Claude Code 表現為什么如此差勁?使用時間或許是一大影響因素,「它在凌晨兩點用起來順暢無比,白天高峰期被限流之后就非常糟糕。」
還有人猜測,是不是 Anthropic 正在研發一個新的或更好的模型。
眾多拉踩之下,Claude Code 似乎就要跌落神壇了。當一個模型開始了「偷懶」,用戶會做出他們的選擇。根據我們此前的報道,在 GPT-5 發布后,相比于 Claude Code,開發者私下更喜歡用 GPT-5 寫代碼。
下面這位小哥表示,「我這幾天一直在 Codex+GPT-5-high,完全不想念 Claude Code。每月 20 美元,性價比簡直離譜。」
你在 Claude 的實際使用中遇到過哪些降智行為呢,歡迎評論區留言。
.
#TRKT
基于時序增強關系敏感知識遷移的弱監督動態場景圖生成
該論文的第一作者和通訊作者均來自北京大學王選計算機研究所,第一作者為博士生徐鑄,通訊作者為博士生導師劉洋。團隊近年來在 TPAMI、IJCV、CVPR、ICML 等頂會上有多項代表性成果發表,多次榮獲國內外多模態理解預生成競賽冠軍,和國內外知名高校、科研機構廣泛開展合作。
本文主要介紹來自該團隊的最新論文:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring。該任務針對弱監督動態場景圖任務展開研究,發現目前的性能瓶頸在場景中目標檢測的質量,因為外部預訓練的目標檢測器在需要考慮關系信息和時序上下文的場景圖視頻數據上檢測結果欠佳。
本文針對該問題提出了一種時序增強關系敏感知識遷移的方法,通過獲取關系和時序信息感知的注意力圖來優化外部目標檢測器的檢測結果,從而提升在場景圖數據上目標檢測質量,進而提升最終的生成場景圖效果。
目前該研究已被 ICCV 2025 正式接收,相關代碼與模型已全部開源。
- 論文標題:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring
- 論文鏈接:https://arxiv.org/abs/2508.04943
- 代碼鏈接:https://github.com/XZPKU/TRKT.git
- 項目主頁:https://sites.google.com/view/trkt-official
動態場景圖生成任務旨在通過檢測物體并預測它們之間的關系,為視頻的每一幀生成對應場景圖。 弱監督動態場景圖生成要求模型在訓練階段只使用來自視頻單幀的無物體位置信息的場景圖標簽作為監督進行訓練,從而減少標注工作量。現有的弱監督動態場景圖生成方法依賴于預訓練的外部目標檢測器生成物體標簽,進而構造偽場景圖標簽用于后續場景圖生成模型的訓練。
然而,在動態、關系感知的動態場景圖生成場景中,訓練于靜態、以物體為中心圖像上的目標檢測器可能出現物體定位不準確以及對部分物體置信度過低,從而導致物體漏檢的問題。本文通過分析目標檢測結果和關系預測結果對最終場景圖質量的影響(如下圖 1 所示),可以發現目標檢測質量是目前弱監督動態場景圖生成任務的主要瓶頸。
圖 1:使用不同目標檢測結果和關系預測結果的動態場景圖性能對比
針對上述問題,該論文提出了一種時序增強且關系敏感的知識遷移方法 TRKT,該方法能夠有效增強在關系感知的動態場景中的目標檢測性能。
具體來講,TRKT 首先通過物體和關系類別解碼器生成類別特定的注意力圖,以突出物體區域和交互區域,從而使注意力圖具備關系感知能力,同時利用鄰近幀和光流信息對注意力圖進行時序增強,使它們具備運動感知能力,并對運動模糊具有較強的魯棒性。進一步,TRKT 還設計了一個雙流融合模塊,綜合利用類別特定的注意力圖與外部檢測結果,提升物體定位精度和部分物體的置信度分數。實驗表明,TRKT 通過提升目標檢測性能為弱監督動態場景圖生成的訓練提供了更準確和更高質量的偽標簽,進而提升最終動態場景圖的生成質量。
一、方法介紹
圖 2:基于時序增強關系敏感知識遷移的弱監督動態場景圖生成方法框架圖
本文方法如圖 2 所示,它主要由兩個設計組成:關系敏感的知識挖掘(Relation-aware Knowledge Mining)和雙流融合模塊(Dual-stream Fusion Module)。在關系敏感的知識挖掘中,我們利用圖像編碼器將每幀輸入圖像處理成若干塊,然后分別通過物體和關系類別解碼器對這些塊進行解碼,生成注意力圖,用于高亮物體及其交互關系的相關區域。編碼器和解碼器僅通過圖像的物體和關系類別標簽進行監督。這些注意力圖包含物體語義和潛在的關系上下文,從而增強了模型在數據中識別和理解復雜關系的能力。進一步地,跨幀的光流被用來提供時序信息以進一步增強注意力圖。通過這些方法,我們獲得既具備關系感知又具備運動感知的注意力圖,包含時序增強和關系敏感的知識。在雙流融合模塊中,我們設計了并行的定位優化模塊(Localization Refinement Module,LRM)和置信度提升模塊(Confidence Boosting Module,CBM)用于最大化注意力圖在增強外部檢測結果中的效果。LRM 通過利用注意力圖來定位物體區域,從而提供外部檢測的邊界框坐標的準確度;CBM 則增強由類別解碼器識別的物體類別的置信度分數。關系敏感的知識挖掘和雙流融合模塊有效地減輕了外部檢測結果中存在的偏差,最終產生了更可靠的物體檢測結果。最后我們使用和基線模型相同的方法,將檢測結果組織為場景圖偽標簽,以全監督的方式訓練動態場景圖檢測模型。
關系敏感的知識挖掘
?在關系敏感的知識挖掘中,我們使用無物體位置信息的場景圖標注訓練物體和關系類別解碼器,分別生成關注物體的類別敏感注意力圖?
?和關注關系區域的注意力圖?
,并利用鄰近幀和光流信息創建當前幀的偽注意力圖?
,以緩解潛在的模糊和遮擋問題,增強注意力圖的運動感知能力。我們首先將輸入圖像
編碼為圖像塊特征
,其中 N 是圖像塊的數量,D 是特征維度。為了關注與每個物體類別高度相關的特定區域,我們為物體類別編碼器配備物體查詢
,其中 Cobj是物體類別的數量,并在關系類別解碼器中提供關系查詢
,用于關注包含關系信息的區域,其中 Crel 是關系類別的數量。然后,對于每個類別解碼器中的注意力層,我們將注意力計算公式表示為:
其中 tgt 可以是物體(obj)或關系(rel),CA 表示交叉注意力層,
表示拼接后的特征,
分別是查詢、鍵和值的投影層,
表示注意力矩陣。
用于定位特定類別的視覺線索,我們通過切片和重塑操作從?
?推導出?
,其中 N=h×w,表示物體和關系標記與圖像塊特征之間的注意力。為了生成更準確的類別敏感注意力圖,我們將注意力圖?
?和?
?通過如下相似度的計算融合成類別敏感的注意力圖,
其中,
,
,而 norm 表示歸一化操作。
為了進一步應對視頻中可能出現的運動模糊和遮擋問題,并使注意力圖具備運動感知能力,我們提出幀間注意力增強策略,采用跨幀光流信息作為時序線索。對于視頻序列 V 中的每一幀?
,我們采用鄰近幀?
?提供額外信息,以補救因 Ii 中的模糊和遮擋所導致的物體誤檢和漏檢。具體而言,我們采用 RAFT [2] 來獲得幀間光流?
,并使用相同的關系敏感的知識挖掘過程為?
?獲取類別感知的注意力圖?
。然后,我們根據光流場?
對?
?進行變形,生成第 i 幀的偽注意力圖?
,包含關于動態物體的時序線索。
雙流融合模塊
雙流融合模塊(DFM)用于結合時序感知且關系敏感的知識,來提升外部檢測器的結果質量。DFM 包含了定位修正模塊和置信度提升模塊。
圖 3:定位修正模塊示意圖
定位修正過程如圖 3 所示,外部檢測結果和來自類別感知注意力圖的物體候選被用來獲取修正后的檢測結果(即圖 3 右下角的綠色框)。為了修正外部檢測結果 De,我們利用類別感知注意力圖?
,用基于閾值的算法 f (?) 獲取內部物體候選?
,其中?
?是檢測到的邊界框,
?是置信度分數,通過對應注意力圖內 bi 的平均注意力得分計算,
?是物體的類別,n 表示檢測到的物體數量。然后,我們將 Da 與 De 結合,通過加權框融合融合算法 F (?) 獲取更精確的物體邊界框。融合過程表示如下:
圖 4:置信度提升模塊示意圖
另一方面,某些邊界框中可能存在低置信度的問題,可能會導致物體漏檢。因此我們提出了置信度提升模塊(CBM)來補充潛在漏檢的物體。如圖 4 所示,我們以物體分類 logits 作為標準選擇具有高概率的物體類別,將其注意力?
與外部檢測注意力圖 Aext 結合,并進行歸一化操作,生成增強的類別 ci 的注意力圖,得到改進的物體檢測結果 D2,從而緩解可能的漏檢問題:
接著,我們將物體檢測結果 D1 和 D2 融合,得到修正后的物體檢測結果 D=F (D1,D2) 同時提升了檢測精度和置信度分數。此外,為了賦予檢測結果時序線索并緩解模糊和遮擋問題,我們在 D 上通過偽注意力圖?
?, 重復上述操作,最終獲得進一步修正后的檢測結果 D′。該結果用于依照基線模型 PLA 中的方法獲取偽場景圖標簽,并以全監督的方式訓練動態場景圖檢測模型。
二、實驗結果
①對比方法
我們對比了兩大類方法,第一類是已有最優的弱監督動態場景圖生成方法,包括 PLA [1] 和 NL-VSGG;第二類是擅長關系理解的視覺語言模型,包括 RLIP 和 RLIPv2 [4]。
②評價指標
評價指標分為兩部分,第一部分是測評方法在 DSGG 數據中的目標檢測性能,指標為 Average Precision (AP) 和 Average Recall (AR);第二部分是測評方法在動態場景圖生成任務上的性能,我們通過場景圖檢測(SGDET)任務進行評估。SGDET 旨在檢測物體對并預測它們之間的關系,并以 Recall@K 為指標進行評估。
③與現有方法的對比及分析
表 1:與基線模型在 Action Genome [3] 數據集上目標檢測性能對比實驗結果
表 2:與對比方法在 Action Genome [3] 數據集上動態場景圖生成性能對比實驗結果
我們首先對比了目標檢測的性能,結果如表 1 所示。我們提出的方法在 Average Precision 和 Average Recall 上分別提高了 13.0%/1.3%,驗證了我們的方法能夠有效提升動態和需要關系理解場景下的目標檢測性能。
對于弱監督動態場景圖生成任務,性能對比如表 2 所示。和我們的基線模型 PLA 相比,結果顯示,我們在所有評估指標上都取得了性能提升(1.72%/2.42%),這表明,通過改進物體檢測結果,生成的偽場景圖標簽質量得到了提高,從而在最終的 DSGG 性能上獲得了性能提升。此外,我們還與 NL-VSGG 進行了比較,NL-VSGG 使用視頻字幕來構建偽場景圖進行模型訓練,也使用外部物體檢測器進行物體檢測,但由于相同的物體檢測質量問題,其 DSGG 性能低于我們的方法。我們還與 RLIP 和 RLIPv2 進行了比較,它們以零樣本方式進行場景圖預測,將每一幀視為靜態圖像。然而,它們的性能較差,進一步說明了時序和動態信息和時序增強且關系敏感的知識對于動態場景圖任務的必要性。
④消融實驗
表 3:不同模塊的消融實驗結果
為了驗證本文所提出的各個模塊的有效性,本文進行了消融實驗。CBM, LRM 和 IAA 分別代表置信度提升模塊,定位修正模塊以及幀間注意力增強策略,消融結果如表 3 所示。我們可以得出以下結論:(1)分別采用 CBM 和 LRM 作為知識遷移策略,分別帶來了 1.2% 和 2.0% 的平均精度提升,進而在 SGDET 任務上獲得了性能提升,這表明物體檢測質量在邊界框置信度分數和定位精度方面得到了改善。(2)通過結合 CBM 和 LRM,物體檢測的 AP 平均提升了 2.8%,在有約束 / 無約束場景下,DSGG 任務的表現分別提升了 1.48%/1.94%。這表明,邊界框精度的提升和置信度分數的增強可以相互補充,生成質量更高的物體檢測結果,從而帶來更大的性能提升。(3)融入 IAA 策略后,物體檢測性能進一步提升,AP 提升了 8.9%/10.6%,表明 IAA 有效緩解了模糊和遮擋問題,生成了更好的檢測結果,從而進一步提升了最終場景圖生成的表現。
⑤可視化結果
圖 5:動態場景圖生成結果可視化
如圖 5 所示,我們給出了和基線模型 PLA [1] 生成動態場景圖效果的對比,得益于我們引入的時序增強關系敏感的知識和我們設計的雙流融合模塊,我們的方法能夠得到更完整的場景圖,并且其中人和物體的定位更加準確,從而使得得到的場景圖質量更高。
更多研究細節,可參考原論文。
參考文獻
[1] Siqi Chen, Jun Xiao, and Long Chen. Video scene graph generation from single-frame weak supervision. In The Eleventh International Conference on Learning Representations,2023.
[2] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow, 2020.?
[3] Jingwei Ji, Ranjay Krishna, Li Fei-Fei, and Juan Carlos Niebles. Action genome: Actions as compositions of spatio temporal scene graphs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10236–10247, 2020.
[4] Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, and Deli Zhao. Rlipv2: Fast scaling of relational language-image pre-training, 2023.
#Anthropic
剛剛,Anthropic在質疑聲中獲130億美元融資,估值達1830億
Anthropic 宣布已經完成了新一輪?130 億美元融資,投后估值達?1830 億美元,約為這家人工智能初創公司 3 月份上次融資時的三倍。
這也是目前科技行業第二大規模的私募融資,僅次于 2025 年 3 月 OpenAI 歷史性的 400 億美元融資。
這最新一輪融資為 Anthropic 的 F 輪融資,由 Iconiq、富達管理研究公司 (Fidelity Management & Research Co.) 和光速創投 (Lightspeed Venture Partners) 領投。Anthropic 表示,Altimeter、General Catalyst 和 Coatue 等其他多方投資者也參與其中。
Anthropic 財務總監 Krishna Rao 在聲明中表示:「此次融資表明投資者對我們財務業績的極大信心,并展現了他們與我們合作的力度,這將繼續推動我們前所未有的增長。」
自 2023 年 3 月推出 AI 助手 Claude 以來,Anthropic 的估值一路飆升。
2025 年初,即推出 Claude 不到兩年,Anthropic 的運行收入已增長至約 10 億美元。到 2025 年 8 月 —— 僅僅八個月后,該公司的年度化營收(run-rate revenue)就超過 50 億美元,使 Anthropic 成為歷史上增長最快的科技公司之一。
此外,該公司還在聲明中重點提到了 Claude Code:「對于企業而言,我們的 API 和行業特定產品使其能夠輕松地將強大的 AI 添加到其關鍵應用程序中,而無需進行復雜的集成工作。自 2025 年 5 月全面發布以來,Claude Code 已成為開發者的首選工具。Claude Code 迅速發展,已創造超過 5 億美元的運營收入,使用量在短短三個月內增長了 10 倍以上。」
Vibe Kanban 發布的動態統計圖也佐證了其優勢,不過也看得出來,OpenAI 推出的競品 Codex Cli 增長明顯。
??https://x.com/LouisKnightWebb/status/1962870556631478401??
Anthropic 表示,已為超過 30 萬家企業客戶提供服務,并且其大型客戶(每個客戶的運營收入超過 10 萬美元)數量在過去一年中增長了近?7?倍。
Anthropic 還表示,將利用新資本深化安全研究,滿足日益增長的企業需求,并支持國際擴張。
高估值背后,Anthropic 最近引發的爭議也不少:
- 默認收集用戶數據并用于訓練(消費者端):Anthropic 宣布將把用戶的聊天與編碼會話用于模型訓練,除非用戶主動選擇退出;同時把允許訓練的數據最長留存 5 年(未允許者仍為 30 天)。該變更覆蓋 Claude Free/Pro/Max 與 Claude Code,但不適用于企業 / 政府 / 教育或 API(Bedrock / Vertex)等場景。并設置了 9 月 28 日 2025 年 的最后決定期限與彈窗默認「接受」設計,引發爭議。
- 「用量限制」收緊,重度用戶受影響。7 月底起,Anthropic 面向 Pro/Max(尤其 Claude Code 重度用戶)推出按周的用量上限,并出現按小時計量的新配額方式(5 小時重置);官方稱僅影響 <5% 訂閱者,但社區反彈明顯。
- 模型體驗波動的社區爭議。隨著新模型 / 快照上線,有用戶反饋頂級模型表現階段性下滑(降智)、為了新模型發布而壓低之前模型性能等,相關吐槽在社區持續發酵(雖屬主觀體驗,但討論熱烈)。
- 模型「自我保護/結束對話」的設定也引發討論。Anthropic 表示最新較大的模型在極端、持續的辱罵 / 有害情景下可主動結束對話,被一些用戶質疑「把 AI 放在用戶之前」。
- 多條版權/數據訴訟戰線:作者案、音樂出版方案、Reddit 起訴。
不過,看起來這些爭議并沒有對投資者對 Anthropic 的信心產生顯著影響。
Anthropic 由包括 CEO Dario Amodei 在內的多位前 OpenAI 研究高管創立。現如今,OpenAI 和 Anthropic 已經成為 AI 市場里的激烈競爭對手。
OpenAI 于 2022 年發布 AI 聊天機器人 ChatGPT 后迅速成為主流,據報道,OpenAI 正準備出售股票,作為二次出售的一部分,此舉將使公司估值達到約 5000 億美元。今天,OpenAI 還宣布以 11 億美元收購了產品分析創業公司 Statsig,并任命其 CEO Vijaye Raji 為 OpenAI 的產品 CTO—— 向應用 CEO Fidji Simo 報告。
.
#MetaFold
機器人衣物折疊新范式,NUS邵林團隊用MetaFold解耦軌跡與動作
本文的共同第一作者為新加坡國立大學博士生陳浩楠,南京大學研究助理 / 本科生李駿驍和北京大學博士吳睿海。合作者為劉益偉、侯懿文、徐志軒、郭京翔、高崇凱、衛振宇、許申思、黃嘉祺。通訊作者為新加坡國立大學計算機學院助理教授邵林,研究方向為機器人和人工智能。
機器人對可形變物體的操作(Deformable Object Manipulation, DOM),是衡量通用機器人智能水平的關鍵指標之一。與剛體操作不同,衣物、繩索、食物等物體的形態不固定,其狀態空間維度極高,且物理交互過程呈現出復雜的非線性動力學特性,為感知、規劃和控制帶來了巨大挑戰。
傳統的服裝折疊方法往往依賴于預定義的關鍵點或演示數據 [1, 2],這嚴重限制了它們在不同服裝類別間的泛化能力。現有研究大多采用基于規則的啟發式方法或依賴人工演示的學習方式,這些方法在面對多樣化的服裝類型和用戶指令時表現出明顯的局限性。
近年來,隨著基礎模型在計算機視覺和自然語言處理領域的巨大成功,研究者們開始探索將這些先進技術應用于機器人操作任務 [3]。視覺和語言引導的機器人操作已成為當前研究的熱點,它能夠讓機器人理解自然語言指令并執行相應的操作任務。然而,在可變形物體操作,特別是服裝折疊任務中,如何有效結合視覺和語言指導與物理操作仍然是一個亟待解決的問題。
在此背景下,MetaFold?旨在填補現有研究的空白:創建一個既能理解人類語言的豐富內涵和場景的視覺信息,又能精準、泛化地操作多類別衣物的、具有良好解釋性的機器人框架。
目前,該論文已被機器人領域頂級會議 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025) 接收。
論文標題:MetaFold: Language-Guided Multi-Category Garment Folding Framework via Trajectory Generation and Foundation Model
論文鏈接:https://arxiv.org/abs/2503.08372
項目主頁:https://meta-fold.github.io/
MetaFold:基于軌跡生成和動作預測的分層架構
MetaFold 采用了一種創新的分層架構設計,將復雜的服裝折疊任務分解為兩個相對獨立的子問題:任務規劃(task planning)和動作預測(action prediction)。這種分離式設計受到人類神經系統結構的啟發 —— 大腦負責高級任務理解和物體識別,而脊髓和外周神經系統管理手部運動和抓取動作。
該框架的核心思想是通過語言引導的點云軌跡生成來處理任務規劃,同時使用低級基礎模型來進行動作預測。這種模塊化設計不僅簡化了訓練過程,還顯著提高了模型在不同服裝類別間的泛化能力。
Fig. 1 MetaFold 框架
數據集生成與標注
由于當前衣物折疊數據稀缺,研究團隊首先構建了一個包含 1210 個服裝和 3376 條軌跡的大規模數據集。該數據集基于 ClothesNet [4] 提供的服裝模型,使用 DiffClothAI [5] 可微分仿真器生成高質量的點云軌跡數據。
對于不同種類的衣物,研究團隊首先使用啟發式的方法生成折疊軌跡,并記錄每時刻的衣物網格。從連續幀的衣物網格中,可以提取出衣物的點云軌跡。研究團隊對這些衣物的折疊軌跡進行篩選,將失敗的折疊軌跡去除,構建了一個成功折疊的衣物折疊數據集。
數據集涵蓋了四種主要的折疊類型:(1)無袖折疊(包括連衣裙、裙子和無袖上衣)(2)短袖折疊(3)長袖折疊(4)褲子折疊。每個軌跡都配有相應的自然語言描述,用于指導折疊過程。
數據集已經在 huggingface 上開源:
開源地址:https://huggingface.co/datasets/chenhn02/MetaFold
軌跡生成模型
軌跡生成模型的核心是一個基于注意力機制的跨模態融合模型。它首先通過獨立的編碼器分別提取點云的幾何特征和語言指令的語義特征,然后利用交叉注意力機制來深度融合這兩種模態的信息,從而理解指令在特定幾何形態上的具體意圖。
該模型的輸出并非直接的機器人動作,而是衣物形態在未來的一系列幾何快照。這種以點云軌跡作為中間表征的設計是 MetaFold 的關鍵創新之一,其優勢在于:
- 解耦與抽象:它將「任務目標」的幾何定義從「如何實現該目標」的物理動作中剝離出來,顯著降低了學習的復雜性。
- 提升泛化性:無論是 T 恤還是連衣裙,「對折」這一動作在幾何形態上的變化具有共性。學習這種視覺 / 語言 - 幾何的映射,比學習視覺 / 語言 - 具體動作的映射更具泛化潛力。
- 可解釋性:生成的可視化點云軌跡為人類提供了一個直觀的窗口,以理解和驗證機器人的「任務規劃」是否符合預期。
軌跡生成模型基于條件變分自編碼器(CVAE)構建,其編碼器和解碼器均采用 Transformer 編碼器架構。該模型接收點云觀察和語言描述,生成點云軌跡。模型使用 PointNet++ 提取點云空間信息,得到點云特征。同時,LLaMA 模型處理語言描述的語義信息,經過降維后得到語言特征。
,時長00:03
底層操作策略
ManiFoundation [6] 模型將操作任務形式化為接觸合成問題。接收兩個連續點云狀態,模型將輸出從上一個點云狀態轉移到下一個點云狀態所需要的動作。這個動作將以接觸合成的形式表示,即若干個接觸點和對應的運動方向。
為減輕隨機種子對預測結果的影響,系統采用模型集成方法,使用 160 個不同隨機種子生成多個預測結果。當兩個預測結果之間的距離小于閾值時,將它們歸為同一組,最終選擇排名最高的組內平均位置最近的點及其對應力作為輸出。
系統實施閉環反饋控制策略,在機器人執行動作后重新獲取服裝狀態,將當前點云輸入軌跡生成模型產生后續軌跡。這種設計使框架能夠適應環境擾動和變化,確保操作的魯棒性和精確性。
實驗結果與深度分析
數據集與評估指標
實驗在 Isaac Sim 仿真環境中進行,相比傳統的 PyFleX 仿真環境,該環境能夠提供更準確的服裝內力仿真和更低的網格穿透發生率。為了能同時衡量多種衣物的折疊效果,研究團隊采用三個關鍵評估指標:
- 矩形度(Rectangularity):折疊后服裝面積與其邊界矩形的比值,評估折疊質量。
- 面積比(Area Ratio):折疊后與初始服裝面積的比值,指示折疊緊密程度。
- 成功率(Success Rate):矩形度超過閾值且面積比低于閾值的樣本比例。
性能對比分析
MetaFold 在多項指標上顯著優于現有方法。
- 在矩形度上,MetaFold 保持 0.80-0.87 的高水平。
- 在面積比指標上,MetaFold 實現 0.24-0.45,優于基線方法。
- 在成功率指標上,MetaFold 達到 79%-97%,顯著超過 UniGarmentManip [9] 的 42%-91% 和 GPT-Fabric [3] 的 3%-63%
在未見過的 CLOTH3D [7] 數據集上,MetaFold 仍然達到 79%-97% 的成功率,證明了其強大的跨數據集泛化能力。
在語言指導的實驗中,MetaFold 與基線比較了已見指令與未見指令的泛化能力。結果表明,MetaFold 在處理不同類型語言指令方面表現出色。除此之外,系統能夠處理復雜的用戶指令,如指定折疊順序(「先左后右」)等,即使這些順序在訓練數據中未出現過,模型仍能正確理解和執行。
真實環境驗證
研究團隊使用 uFactory xArm6 機器人配備 xArm Gripper 和俯視 RealSense D435 相機進行真實環境實驗。通過 SAM2 [8] 分割 RGB 圖像生成服裝掩碼,結合深度數據提取真實服裝點云。相比于 RGB 圖片,點云模態有更小的模擬與實際差距 (sim-to-real gap),使其能夠直接遷移到真實環境,而無需另外訓練。
真實環境實驗證實了 MetaFold 從仿真到現實的有效遷移能力,成功完成了多種服裝的折疊任務,驗證了框架的實用性和魯棒性。
,時長00:29
結論和展望
本研究成功地提出并驗證了一個名為 MetaFold 的、用于機器人多類別衣物折疊的語言引導框架。其核心貢獻在于:
- 提出了一種創新的解耦架構,將任務規劃與動作生成分離,有效提升了系統的性能、泛化性和可解釋性。
- 引入點云軌跡作為中間表征,為連接高級語義與底層控制提供了一種高效的橋梁。
- 構建并開源了大規模多類別服裝折疊點云軌跡數據集,為后續研究提供了寶貴資源。
參考文獻
[1] Canberk, Alper, et al. "Cloth Funnels: Canonicalized-Alignment for Multi-Purpose Garment Manipulation." 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.
[2] Ganapathi, Aditya, et al. "Learning dense visual correspondences in simulation to smooth and fold real fabrics." 2021 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2021.
[3] Raval, Vedant, et al. "GPT-Fabric: Folding and Smoothing Fabric by Leveraging Pre-Trained Foundation Models." CoRR (2024).
[4] Zhou, Bingyang, et al. "Clothesnet: An information-rich 3d garment model repository with simulated clothes environment." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[5] Yu, Xinyuan, et al. "Diffclothai: Differentiable cloth simulation with intersection-free frictional contact and differentiable two-way coupling with articulated rigid bodies." 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2023.
[6] Xu, Zhixuan, et al. "Manifoundation model for general-purpose robotic manipulation of contact synthesis with arbitrary objects and robots." 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2024.
[7] Bertiche, Hugo, Meysam Madadi, and Sergio Escalera. "Cloth3d: clothed 3d humans." European Conference on Computer Vision. Cham: Springer International Publishing, 2020.
[8] Ravi, Nikhila, et al. "Sam 2: Segment anything in images and videos." arXiv preprint arXiv:2408.00714 (2024).
[9] Wu, Ruihai, et al. "Unigarmentmanip: A unified framework for category-level garment manipulation via dense visual correspondence." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.