大模型能否生成搜索引擎的未來?

文|郝 ?? 鑫

編|劉雨琦

ChatGPT火爆之前,水面下,也有中國公司也在朝著智能助手的方向努力。夸克便是其中之一。在GPT風靡科技圈后,國內就開始陸續冒出一些大模型廠商。對當時夸克而言,做大模型毋庸置疑,但做什么樣的大模型還需要結合自身優勢去制定詳細方案。本質上,這是一個技術性和實用性誰是第一性的問題。同樣是做大模型,有的廠商選擇先攻克技術,大模型研發出來后再找業務場景;而有的廠商,則是從已有的確定性場景出發,匹配滿足業務需求的大模型。夸克顯然屬于后者,從搜、存、用三個主要核心場景出發,打造知識準確性高、邏輯理解能力強的大模型底座。事實上,大模型問世之后,落地速度并沒有想象中那么快,核心原因便在于找不到場景,拿著錘子滿世界找釘子,效率自然不高。而夸克則從原有的場景出發,產生價值是關鍵。正是源于這樣的思考,夸克大模型的誕生貫穿著實用性的思考,也自我定位為:面向搜索、生產力工具和資產管理助手的應用型大模型。更準確的說,夸克借著大模型的技術東風,將原有產品功能進行智能化升級,也再次明確了打造集工作、生活、學習一體的AI助手的初心。

“學霸”是怎樣煉成的?

什么樣的土壤,結出什么樣的果實,夸克大模型從出生起就自帶著搜索引擎的基因。搜索的本質是將用戶的搜索意圖和信息進行匹配,而這也正是幫助大模型形成邏輯的過程。用戶的每次查詢、點擊,都會建立、強化和拓展匹配的關聯性,比如在瀏覽頁面的過程中,就能自然地建立起“ChatGPT-OpenAI-奧特曼”之間的關系。循環往復,通過搜索就積累起了龐大的數據,建立起了涵蓋文字、圖片、視頻的多模態知識圖譜,正是在這些錯綜復雜的知識圖譜中構建起了邏輯關系。可以說,用戶的每一次搜索行為,都是在輔助大模型訓練。基于此,以Transformer為架構,從搜索引擎中長出來的夸克大模型,天然就擅于理解和邏輯。得益于在理解和邏輯上的天賦,讓夸克大模型確定了最核心的能力——知識正確性能力。“要開發大模型應用,首先就要解決知識正確性的問題。現在內容生成,主要靠大模型的創意能力,而不是知識能力,這可能擁有一部分市場。但更進一步,我認為,好用的大模型產品和創新產品,應該是知識和創意能力的結合”,夸克技術負責人蔣冠軍表示。但從發現到構建,這中間還需要解決兩個核心問題,一是如何降低幻覺,提高大模型輸出的準確率?二是如何讓大模型真的去理解和學會,不止是學會,更要做“學霸”。因此,“學霸計劃”正式確定成立,夸克打出了一套組合拳。首先是參數要大,夸克大模型參數達到了千億級。更大的參數量,意味著模型的知識容量更大,可學習語言的模式也更豐富,有利于大模型的分析和推理。其次是從數據價值上下功夫。從數量上做到全,據悉,夸克大模型幾乎涵蓋了所有的中文知識,以及豐富的英語和其他語言知識;從數據質量上做到優質,基于搜索引擎經驗,夸克團隊有一套科學的知識評估、對齊和校驗體系,可以篩選出哪些數據是有價值的,同時過濾出無用、有害的數據;從數據與數據關系層面,采用大量知識圖譜、文檔和網頁知識去做知識增強。最后是靠專業團隊來生產和審核知識。在醫療、教育、文檔行業,夸克不僅沉淀了大量的數據,還引進了專業的醫生、老師等角色,一邊生產出專業優質的知識喂給大模型,一邊也為最后結果生成的準確性加筑了一道防線。蔣冠軍告訴光錐智能,靠專業團隊供給大模型訓練,才讓其走到了現在,“最初我們做一個版本,但是效果不太好。于是,我們立馬組建起專業團隊,不僅有正式員工、行業資深從業者,也建設了專門的第三方團隊”。不過,真學霸還是假學霸,還得拿成績說話。在提升準確率方面,夸克大模型在健康等高精專行業,知識錯誤率降到了5%以下,基本上達到較高可用性。在國內最權威的兩個大語言模型測試榜單中,夸克大模型經過了上萬道專業考題的檢驗,覆蓋幾十個學科和不同學段,無論是常識問題還是社會科學知識,夸克大模型都展現出了處理復雜、多層次問題的能力。

在C-Eval榜單中,夸克大模型平均分達到89分,位居榜單第一,同時在社會科學、人文科學和其他三個類目中位列榜首。

在CMMLU榜單評測中,夸克大模型以平均77.08分的成績位列總成績第一,并占據社會科學和其他兩個類目的首位。

臨床執業醫師資格考試、計算機等級考試、公務員考試、教師資格證考試,夸克大模型搖身一變,成了各領域的“專業人才”。

重要的是,夸克是什么

一個以知識能力為核心,兼具對話、創作、安全的錘子打造好后,下一步就要考慮楔釘子的順序以及怎么用大模型的底座把夸克的產品功能挨個智能化改造一遍。蔣冠軍介紹,他們對夸克的最新定位是一款集搜、用、存的智能信息產品。該定位來自于夸克團隊對其主要用戶群體,即25歲以下的年輕用戶長期使用場景的分析,蔣冠軍表示,“在大家工作、學習和生活的過程中,無外乎是找資料、存資料,并且最好還能在云端進行編輯和加工”。梳理后發現,“搜”的功能中包含了通用搜索、文檔、圖片、視頻、醫療、教育等場景;“用”的功能具體指所提供的工具,其中有掃描王、高考填報、網頁、資料生成等工具;“存”則指向個人云盤系列功能,內含了資產管理、資產搜索、資產編輯等功能。搜索一向是夸克的“靈魂”,自然也成為了落下的第一顆“釘子”。對夸克來說,“搜索”是引擎,牽一發而動全身。因此,對搜索的改造,絕不能淺嘗輒止。具體來看,目前有三個主要方向的升級:對通用搜索結果的優化,對生成內容的增加以及對健康、教育和法律等核心場景的再產品化。過去,用戶在搜索引擎中的查詢、點擊和結果返回的行為,本身就是一種交互方式,只不過在這種情況下搜索不具備針對性,搜索結果呈現也是散狀的。而有了大模型以后,搜索的行為更像是對話,既可以展現通用的答案,也可以針對用戶個性化提問、追問進行補充。搜索結果可以聚合和整合,不用再同時打開十幾個網頁,并且結果正確性可追溯。夸克認為搜索本身就是一個以內容為驅動的產品,AIGC技術趨漸成熟催化了搜索內容的進一步爆發。現階段,夸克在搜索上推出了大量的AIGC內容,比如支持消息祝福、語文作文、合同、規章制度、新聞稿等短、中、長的文案創作。健康、教育和法律行業都是對知識性要求極高的行業。首先是有進入門檻,如果沒有長時間的行業積累,很難把行業摸透,做到深、精和專。再者,用戶對這些行業的知識需求,量要足夠大,知識的難易程度要有階梯性的區分。更為關鍵的是,用戶搜即用,從學術寫作、實驗室到手術臺、法院,對準確性都有極高的要求。上述要求或許對其他玩家存在挑戰,但對夸克而言,從行業經驗、數據積累到知識的準確性,本該水到渠成。“在健康場景上,我們做了很多行業數據建設和知識建設,具備完整的健康知識圖譜,儲備了大量醫典百科、醫典問答的C端用戶數據,還整理了大量的指南、標準和書籍等一系列數據”,蔣冠軍說道。此外,夸克的優勢還在于有成熟的場景和用戶。大模型對健康和法律行業的改造,早在年初就在國外興起,也被視為具有潛力的市場。幾乎同時期,國內就出現了一批“Copy to China”的追隨者,但卻忽略了本質邏輯,國外能火是因為把昂貴的勞動力價格打了下來,卻不符合國內實際情況。所以直到現在,仍有很多創業者在做2C還是2B場景中徘徊。然而,對夸克來說,做健康、法律、教育不是選擇,而是發揮之所長。蔣冠軍告訴光錐智能:“為什么我們要重點建設健康行業?原因在于搜索引擎的核心群體就涵蓋了對健康信息的強需求,在搜索引擎上,用戶可以獲得更好的信息服務。”夸克大模型之于健康知識查詢、獲取,最大的變化在于,不僅能做健康科普問答,還具備比較好的推理能力。以一個咨詢咳嗽癥狀的場景為例,以前在搜索引擎的操作流程如下:在搜索框輸入“咳嗽了三天越來越嚴重了怎么回事兒?”,然后網頁出現了一堆五花八門的答案,有的說是感冒,有的說是肺炎,有的說是支氣管炎,問題是一點沒解決,還徒增了恐慌。夸克團隊注意到,上述情況存在著兩個痛點:普通用戶缺乏專業知識,不知道怎么精準地描述自己的癥狀;同樣一個小癥狀可能對應著一堆疾病,怎么判斷哪個是主要癥狀?夸克給出的解決方案是,線上給每位患者建立了“醫療卡”,當用戶簡單描述了咳嗽的癥狀后,會出現一系列相關的可能對應疾病癥狀。提交完后,大模型會根據當前的癥狀信息,給出一個疾病范圍。通過交互和推理,大幅度提升了診斷的精確性。最后,大模型會輸出參考信息,給出幾個參考方案,如果是A種情況,有什么癥狀,確診需要做哪些檢查,可能會開什么藥等等。在工具、云盤功能方面,當前夸克大模型的主要作用是提效。在云盤上,夸克網盤相冊可以用自然語言去完成檢索,背后是夸克大模型加持的多模態技術和能力;在掃描產品上,掃描識別、資料生成、AI智能填表等更多功能已經在升級和開發的路上。“夸克大模型基本上完成了在當前階段的整體迭代,具備在一部分夸克App的場景里提供服務的能力”,蔣冠軍總結道。

大模型是搜索引擎的未來嗎?

大模型之后,微軟、谷歌等都曾嘗試重構搜索,但目前為止并沒有確定性的結果。這同樣是夸克的挑戰,但也是巨大的機會。新一代的搜索引擎不單單只是一個冰冷的工具,而是由用戶來重新定義,它可以是工作伙伴、情感陪伴、老師朋友。微軟將之稱之為“Copilot”副駕,谷歌稱之為“Magi”。谷歌表示搜索不僅僅是一個工具,而是一個伙伴,一個靈感來源,一個創造力的催化劑,搜索體驗將成為重點。搜索引擎的角色定位變了。這一本質的改變會帶動搜索引擎走向內容化的道路,同時流量的分配邏輯和商業模式也會隨之改變。“現在是大模型輔助搜索,未來是大模型改變搜索。”蔣冠軍表示,搜索產品的本質就是“交互+內容”,把搜索做得極致簡單就是一個“框+內容”的形式,但是搜索的局限性在于,內容沒法個性化和深度化,別人生產什么,它就回答什么。大模型誕生后,搜索的內容生成能力實現了指數級增長,交互提問的數量和理解能力也相應地指數級上升。下一代的搜索引擎將在內容聯動性方面進一步打通,以此來增加搜索內容的豐富性。除了現在能看到的文字、圖片、視頻,以后還將會有短視頻、社交媒體帖子、AI生成內容等,內容排序與推薦順序的決定權重新交還給用戶。同時隨著大模型的進一步的普及,流量入口可能會從現在的搜索引擎轉移到大模型的對話框,這將會直接導致流量邏輯和規則的改變。換而言之,未來,誰掌握了大模型,誰能吸引來更多用戶使用其大模型,就能掌握話語權。關于下一代搜索,夸克也有自己的思考,夸克認為,搜索與大模型關系是隨著技術成熟度而變化。蔣冠軍判斷到:“5到10年以后,搜索會有大變化”。他認為理論上來說,只要大模型足夠強,會打破現有的很多信息獲取習慣,大模型都是可以使用的工具,打字也好、語音也好,跟它交互很方便。再進一步,大模型的基礎能力會越來越往搜索里面去滲透。先是大模型輔助搜索,完成一些工作,慢慢變成以大模型為核心,用搜索幫它完成產品創新。搜索推薦、排序與流量入口改變以后,搜索的商業模式必然會重塑。光錐智能發現,商業模式漸進式的重塑已經打響,例如谷歌在對話搜索生成的結果頁,同樣呈現了商家廣告推薦;外媒報道,微軟、谷歌已經嘗試在類ChatGPT對話生成結果中,增加商家投放鏈接,價高者排序也比較靠前。這讓新一代搜索充滿了想象力。也讓夸克這位主攻信息服務的新星,一躍成為阿里的創新代表之一。阿里三季度財報會上,新任CEO吳泳銘宣布首批戰略級創新業務,夸克位列其中。從根本上看這源于阿里的“AI驅動”戰略,進一步,吳泳銘曾在公開場合發言表示:“在可見的未來,會有更智能的下一代產品進入人們的生活,AI助理會無處不在,成為每個人工作、生活、學習中的助手”。在阿里內部“工作、生活、學習的助手”直指夸克,無論從內部的重視程度還是行業重要性來看,如今的夸克已經站在了下一代搜索的臨界點。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/167320.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/167320.shtml
英文地址,請注明出處:http://en.pswp.cn/news/167320.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

django(千鋒教育)

創建一個django項目 官網下載python最新版本 配置到環境變量中 打開intlij編輯器 創建django項目 安裝django:pip install django 創建django項目: django-admin startproject django01 創建djangoAPP:python manage.py startapp App 啟動&#xff1a…

設置定時自動請求測試_自動定時循環發送http_post請求---postman工作筆記001

其實就是創建接口文件夾的時候,有個monitor collection 用來監聽接口執行情況,這里就可以設置 可以看到多久執行一次對吧,這里可以設置每幾分鐘執行一次,一共執行多少次等等 但是這里要說明一下,如果需要使用monitor功能,必須需要登錄, 所以如果這里點擊monitor collection…

媒體增加日活量的有效策略

隨著數字媒體的蓬勃發展,提高日活量成為媒體平臺追求的重要目標之一。日活量的增加不僅意味著更廣泛的影響力,還能為媒體平臺帶來更多的商業機會。以下是一些有效的策略,可幫助媒體提高日活量: admaoyan貓眼聚合 內容優質化&#…

**QT與目標板聯合調試_斷點仿真**

原文地址: https://blog.csdn.net/u012851408/article/details/86715626

仙女麻麻看過來~這是不是你們在找的外套?

分享女兒的秋冬穿搭 時尚與美觀兼具的毛毛外套 洋氣百搭不挑人穿 誰穿對都好看系列 經典寬松版型 不臃腫對身材包容性很強 小編墻裂推薦哦!!

NFT Insider115:The Sandbox開設元宇宙Diorama快閃店,?YGG Web3 游戲峰會已開幕

引言:NFT Insider由NFT收藏組織WHALE Members、BeepCrypto聯合出品,濃縮每周NFT新聞,為大家帶來關于NFT最全面、最新鮮、最有價值的訊息。每期周報將從NFT市場數據,藝術新聞類,游戲新聞類,虛擬世界類&#…

RevCol:可逆的柱狀神經網絡

文章目錄 摘要1、簡介2、方法2.1、Multi-LeVEl ReVERsible Unit2.2、可逆列架構2.2.1、MACRo設計2.2.2、MicRo 設計 2.3、中間監督 3、實驗部分3.1、圖像分類3.2、目標檢測3.3、語義分割3.4、與SOTA基礎模型的系統級比較3.5、更多分析實驗3.5.1、可逆列架構的性能提升3.5.2、可…

貴金屬交易指南:如何在市場中獲利?

貴金屬市場一直以來都是投資者追逐利潤的熱門選擇,然而,貴金屬市場波動較大,在市場中獲利并非易事。想要成功,需要理解市場動態和采取適當的策略。萬洲金業將為您提供一些實用的貴金屬交易指南,幫助您在市場中獲利。 …

PostgreSQL create or replace view和重建視圖 有什么區別?

一、 replace vs 重建 遇到開發提了個問題,create or replace view和重建視圖(dropcreate)有什么區別,查詢資料整理了一下。 1. create or replace 當存在同名視圖時,嘗試將其替換新視圖語句必須與現有視圖查詢具有相…

LeetCode算法題解(動態規劃,背包問題)|LeetCode1049. 最后一塊石頭的重量 II、LeetCode494. 目標和

一、LeetCode1049. 最后一塊石頭的重量 II 題目鏈接:1049. 最后一塊石頭的重量 II 題目描述: 有一堆石頭,用整數數組 stones 表示。其中 stones[i] 表示第 i 塊石頭的重量。 每一回合,從中選出任意兩塊石頭,然后將…

springboot2.1升級到2.7 actuator丟失部分metrics端點

項目場景: 項目需要升級springboot從2.1升級至2.7 問題描述 發現之前的metrics后面的jvm相關的端口丟了 原因分析: 找到這樣一篇博文https://blog.csdn.net/CL_YD/article/details/120309094,這篇博文意思是對的,但是寫的不太好…

Java基于springoot開發的企業招聘求職網站

演示視頻: https://www.bilibili.com/video/BV1xw411n7Tu/?share_sourcecopy_web&vd_source11344bb73ef9b33550b8202d07ae139b 技術:springootmysqlvuejsbootstrappoi制作word模板 主要功能:求職者可以注冊發布簡歷,選擇簡…

案例018:基于微信小程序的實習記錄系統

文末獲取源碼 開發語言:Java 框架:SSM JDK版本:JDK1.8 數據庫:mysql 5.7 開發軟件:eclipse/myeclipse/idea Maven包:Maven3.5.4 小程序框架:uniapp 小程序開發軟件:HBuilder X 小程序…

【python入門篇】函數(6)

這一節將詳細介紹Python中函數的用法,包括函數的定義、調用、參數、返回值、作用域等。 函數的概述: Python函數是一種封裝了特定任務的可重用代碼塊。通過將程序分解為更小、更具體的任務,函數提供了一種有效的方式來組織和管理代碼&#xf…

保姆級連接FusionInsight MRS kerberos Hive

數新網絡,讓每個人享受數據的價值https://xie.infoq.cn/link?targethttps%3A%2F%2Fwww.datacyber.com%2F 概述 本文將介紹在華為云 FusionInsight MRS(Managed Relational Service)的Kerberos環境中,如何使用Java和DBeaver實現遠…

threejs創建一個旋轉的正方體【完整代碼】

效果: 中文網three.js docs 1.搭建環境 安裝three 首先我們需要新建一個項目 vue/react都可 這里以vue為演示 npm i three 找到一個新的頁面 在頁面script的地方導入three import * as THREE from "three" 或者自己逐個導入 import {PerspectiveC…

京東采銷面對面,洞悉行業新趨勢 京東3C數碼生態大會在武漢圓滿舉行

為促進湖北省3C數碼產業發展,本地企業降本增效、促進行業交流、充分發揮京東集團全鏈路生態服務能力,支持地方3C特色產業提質增量。2023年11月23日,由京東零售、京東物流主辦,湖北省電子商務行業協會聯合協辦的“聚力共贏、攜手共…

【Kotlin精簡】第9章 Kotlin Flow

1 前言 上一章節我們學習了Kotlin的協程【Kotlin精簡】第8章 協程,我們知道 協程實質是對線程切換的封裝,能更加安全實現異步代碼同步化,本質上協程、線程都是服務于并發場景下,其中協程是協作式任務,線程是搶占式任務…

保姆級 ARM64 CPU架構下安裝部署Docker + rancher + K8S 說明文檔

1 K8S 簡介 K8S是Kubernetes的簡稱,是一個開源的容器編排平臺,用于自動部署、擴展和管理“容器化(containerized)應用程序”的系統。它可以跨多個主機聚集在一起,控制和自動化應用的部署與更新。 K8S 架構 Kubernete…

從Redis反序列化UserDetails對象異常后中發現FastJson序列化的一些問題

最近在使用SpringSecurityJWT實現認證授權的時候,出現Redis在反序列化userDetails的異常。通過實踐發現,使用不同的序列化方法和不同的fastJson版本,異常信息各不相同。所以特地記錄了下來。 一、項目代碼 先來看看我項目中redis相關配置信息…