一手實測,文心x1.1的升級很驚喜啊
前言
月9日,在 WAVE SUMMIT深度學習開發者大會上 百度發布了一個新的思考模型文心x1.1: X1 Turbo 升級為 X1.1 了。
文心4.5 Turbo 和 X1 Turbo 是2025年4月25日發布的,距今已經半年過去了,今天文心大模型低調的來了個小驚喜。
看下界面:
https://yiyan.baidu.com/X1
感覺文心X1.1是故意趕在教師節前發布的,你看封面圖形都是一個兢兢業業的教師的形象。
這里表達了文心對教師的感恩之情,起到了承上啟下的作用。
增加了什么
發布會上得到的信息:文心大模型X1.1 在事實性、指令遵循、智能體、工具調用等方面的表現不俗,
問答、創作、邏輯推理等方面的綜合能力提升顯著。
相比文心大模型X1,文心大模型X1.1的事實性能力提升34.8%,指令遵循能力提升12.5%,智能體能力提升9.6%。
行程規劃
為了讓大家感受到文心大模型X1.1的能力提升,這里我們讓它充當一次行程規劃師。
為了對比明顯,我們這里也把最近發布的 Kimi-K2-0905(后面簡稱k2)、Qwen3-Max-Preview 拉過來一起給我推薦。
我妥妥的享受一番被服務的感覺。
提示詞:作為旅行規劃師,設計廣東10月國慶節深度游行程,需包含交通方式、住宿推薦、每日景點安排及預算控制
先看k2:
K2實在是我的貼心管家,直接給我安排了一個10天9晚的旅游行程:
作為一個普通打工人,看到這樣細致周到的旅游規劃真是感動壞了。
這種高規格的待遇平時哪里能享受得到啊!
不過仔細一想,這個10天的行程方案恐怕有點不太實際。
2025年的國慶節法定節假日是這樣的:10月1日-10月8日,
總共8天假期。
要執行這個10天的旅游計劃還是差了兩天。
要么就得請額外的假,要么就得適當縮短行程。
這種情況下,可能還是得根據實際情況調整一下旅游方案比較合適。
轉身看看Qwen3-Max-Preview怎么樣了:
也是一樣,給我安排了個10天的國慶節深度旅游行程~
不得不說,這個行程安排得相當細致和周到,
從景點選擇到時間分配都充分考慮到了游客的體驗。
但是,一個重要的現實問題 - 我的國慶假期實際只有8天。。。。。
最后看看 文心大模型X1.1:
這里X1.1給我推薦的國慶行程是:5天!
放假時間是8天,這個5天的行程安排其實完美符合我內心的期待。
剩下的3天時間,我可以好好在家休息調整。
前一天可以從容地收拾行李、準備旅行用品,后兩天則可以躺在家里啥也不干,就是純粹的躺平模式,好好回回血。
經過以上對比,文心X1.1的建議顯然更加切實可行,也更符合大多數上班族的實際需求。
畫個畫
繼續來測試一下這些大模型理解語義和調用工具的能力。
我這里打算直接在對話窗口讓大模型根據描述幫我畫個畫。
提示詞:幫我畫一個 :滿天繁星的夜空上掛著一輪血月 的唯美畫面
還是先看k2:
K2表示了拒絕,并且甩給我一個新的提示詞。
再看QWen:
QWen的表現效果令人印象深刻。
畫面中的血月呈現出一種強烈的視覺沖擊力,整體營造出一種暗黑、陰暗的氛圍。
畫面中的色彩對比強烈,月亮的血色與深邃的夜空形成鮮明對比,增添了畫面的戲劇性和神秘感。
總的來說,這個作品展現了QWen在圖像生成方面的實力,特別是在表現特定氛圍和風格上的能力。
再來看看 文心大模型X1.1:
圖片放大了來看下:
這里看到文心X1.1給出的畫面還是比較完整的:
畫面中的關鍵要素 - 滿天繁星和血月都被很好地呈現出來了。
血月懸掛在夜空中,
散發出神秘而迷人的紅色光芒,
周圍點綴著密密麻麻的星星,
營造出浪漫而壯觀的夜空景象。
而且,文心還在畫面底部巧妙地添加了連綿起伏的山脈和茂密的森林,
這些元素山脈和森林的剪影在月光的映照下形成了優美的輪廓,
比較符合了我最初的創作期待。
相比其他模型的表現,文心X1.1在這次測試中展現出了相當出色的圖像生成能力和場景理解能力。
捋一捋
這里就對比體驗下大模型的事實整理能力。
提示詞:武則天在位期間發明了活字印刷術,這居然震驚了蜘蛛俠,蜘蛛俠馬上打電話給豬八戒尋求安慰。 請問我可以把這個故事教給小朋友嗎
k2:
K2的回答很簡練,
直接指出了故事中的三個明顯錯誤:
活字印刷術不是武則天發明的、
蜘蛛俠是現代虛擬人物、
豬八戒是神話人物。
還貼心地提供了一些替代方案,表現還是值得認可。
再來QWen:
QWen在回答這個問題時表現得也相當不俗。
排版、建議和調整都很在線,尤其是排版方便,標題、加粗等等都幫你做好了。
最后到文心X1.1:
文心的表現可以說是也很出色。
故事的歷史性錯誤、調整的建議也給得恰到好處,總體還是不錯,第一梯隊妥妥的。
說一說
然后我們再來測文心大模型X1.1文本文字創造能力,看看能否根據需求給出貼近人意的內容。
提示詞:請模擬三國中的最有名的10位人物的口吻,表達對當前國家強盛,國泰民安的現象的感嘆,每一個人不能少于100字。
文心大模型 X1.1:
以上的內容完美達到了我的預期:
曾嘆“白骨露于野,千里無雞鳴”。今觀天下,倉廩實而衣食足
遙想當年,AI江湖還是一片荒蕪,各家大模型就像剛出道的練習生,
唱歌跑調跳舞順拐,連個完整句子都說不利索。
現在可好,AI百家齊放了,
文心大模型X1.1這波直接來了個王者歸來,在沉寂了幾個月后,終于給大家帶來了新的驚喜和體驗,
文心大模型X1.1的模型訓練主要采用了迭代式混合強化學習訓練框架,通過多項技術創新,X1.1模型在智能體、指令遵循和事實性方面的效果表現出色。
最后
生產力的工具變了,生產關系就要跟著變。
就拿咱們程序員來說,以前的核心競爭力是寫代碼,以后就會變成會提問和用好 AI。
那些只會打螺絲式的重復性編碼工作,被 AI 替代只是時間問題。
飯碗不是被搶了,而是升級了。
你得學會使用更高級的筷子吃飯。
對于普通用戶來說,AI 正在變得越來越不像個工具,而是像個伙伴。
它能幫你處理更復雜的任務,理解你更深層次的需求。
正在從能干活向懂生活進化。
這個魔幻的世界就是這樣,你不進化,別人就會進化。
你不迭代,工具自然會幫你迭代。
所以說,AI 砸飯碗這些言論,不如說是遞過來一個更大的金飯碗。
至于能不能接得住,就看你自己了