目錄
- 前言
- 一、GLM4大模型總體概述
- 二、GLM4和GPT4功能對比
- 三、GLM4和GPT4性能對比
- 1、基礎能力(英文)
- 2、指令跟隨能力
- 3、對齊能力
- 4、長文本能力
- 5、多模態-文生圖
- 四、GLM-4 ALL Tools
- 1、文生圖
- 2、代碼解釋器
- 3、網頁瀏覽
- 4、Function Call
- 5、多工具自動調用
- 五、開發者平臺對比
- 六、大模型生態對比
- 七、開放平臺注冊使用
- 1、賬號注冊
- 2、生成API KEY
- 3、額度查看
- 4、知識庫
- 5、應用中心
- 6、體驗中心
- 7、知識庫應用測試
- 八、API簡單測試
- 總結
前言
隨著人工智能技術的飛速發展,大型預訓練語言模型已成為推動行業進步的重要力量。它們在理解自然語言、生成文本、執行復雜任務等方面展現出驚人的能力。在此背景下,國產大模型GLM-4的問世,不僅展現了中國在AI領域的實力,也為國內外研究者和開發者提供了新的研究與應用平臺。
一、GLM4大模型總體概述
北京時間2024年1月16日,標志著國內人工智能重要進展的一刻,清華智譜AI在舉辦 developers 大會時,向公眾介紹了全新一代的基座模型——GLM-4。這一模型不僅性能卓越,更加入了創新的“ALL Tools”功能,同時發布了配套工具GLMS和API接口GLM-4-API,并啟動了GLM-4Assistant API的邀請內測,體現了其在多方面的應用潛力。
1)模型功能方面:新一代的GLM-4是一個長文本多模態的大模型,具有128K的長對話上下文長度,支持豐富的應用如圖文互譯、自動代碼執行、聯網操作以及穩定的全自動Function call。這些特性使得GLM-4成為一個多功能且強大的智能系統
2)模型性能方面:GLM-4的整體性能相比前代GLM-3有了顯著提升,提升了60%,其綜合能力已接近世界頂尖模型Gemini Ultra和GPT-4,特別是在中文處理能力上甚至超越了GPT-4,堪稱國產版的GPT-4。
二、GLM4和GPT4功能對比
GLM-4擁有類似ChatGPT ALL Tools功能,可以識別用戶意圖,靈活調用不同功能可以根據人類意圖,靈活調用CoaView3進行繪圖與修改、調用代碼解釋器完成復雜計算、調用Function cal來調用外部工具AP1、聯網、以及多工具組合調用;
目前ALL Tools功能只能在智譜清言中使用,暫時無法通過調用API實現,估計之后會在GLM AssistantAPI中實現
智譜清言
三、GLM4和GPT4性能對比
在各項評測中,GLM-4的性能表現幾乎達到GPT-4的95%,尤其在中文對齊能力方面有著超越的表現。無論是基礎能力(英文)、指令跟隨能力、對齊能力還是長文本處理能力,GLM-4都顯示出了與GPT-4相匹敵甚至超越的水平。此外,在多模態文生圖方面,GLM-4也表現出色,與DALLE3相當。
1、基礎能力(英文)
GLM-4 在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval 等數據集上,分別達到 GPT-4 94%、95%、91%、99%、90%、100%的水平。
2、指令跟隨能力
GLM-4 在 IFEval 的 prompt 級別上中、英分別達到 GPT-4 的88%、85%的水平,在 Instruction 級別上中、英分別達到 GPT-4 的90%、89%的水平。
3、對齊能力
GLM-4 在中文對齊能力上整體超過 GPT-4。
4、長文本能力
我們在 LongBench(128K)測試集上對多個模型進行評測,GLM-4 性能超過 Claude 2.1;在「大海撈針」(128K)實驗中,GLM-4 的測試結果為 128K 以內全綠,做到100%精準召回。
5、多模態-文生圖
CogView3 在文生圖多個評測指標上,相比 DALLE3 約在 91.4% ~99.3%的水平之間。
四、GLM-4 ALL Tools
GLM-4能夠根據用戶的指令自主理解和規劃任務,自由調用網頁瀏覽器、代碼解釋器和多模態文生圖等工具完成復雜任務。這包括基于上下文的AI繪畫創作、復雜計算任務的自動代碼執行、高效的網頁信息檢索等。此外,GLM-4還支持多工具的自動調用,進一步提高了處理復雜問題的能力。
簡單來講,即只需一個指令,GLM-4 會自動分析指令,結合上下文選擇決定調用合適的工具。
1、文生圖
利用CogView3,GLM-4不只是能夠生成圖像,它還可以根據用戶提供的詳細文本描述進行創作。更為驚人的是,它可以在多次迭代中接受用戶的反饋,實時調整圖像細節,直至用戶滿意為止。這一過程涉及到復雜的視覺理解與圖像生成技術,而GLM-4能夠無縫地完成這一切。
2、代碼解釋器
GLM-4 能夠通過自動調用 python 解釋器,進行復雜計算(例如復雜方程、微積分等),在 GSM8K、MATH、Math23K 等多個評測集上都取得了接近或同等 GPT-4 All Tools 的水平。
通過內置的代碼解釋器,GLM-4可以執行復雜的程序代碼。無論是高級的數據分析任務還是需解決特定數學問題的算法,GLM-4都能提供開箱即用的解決方案。此外,它還能夠處理多線程和復雜控制流,這使得它能夠應對實際開發中的復雜場景。
3、網頁瀏覽
GLM-4 能夠自行規劃檢索任務、自行選擇信息源、自行與信息源交互,在準確率上能夠達到 78.08,是 GPT-4 All Tools 的116%。
GLM-4的網頁瀏覽功能使它成為一個強大的信息檢索工具。模型可以自主地在互聯網上搜索信息、篩選相關數據,并直接與網頁內容交云,從而提供最新最準確的信息響應用戶查詢。
4、Function Call
GLM-4 能夠根據用戶提供的 Function 描述,自動選擇所需 Function 并生成參數,以及根據 Function 的返回值生成回復;同時也支持一次輸入進行多次 Function 調用,支持包含中文及特殊符號的 Function 名字。這一方面 GLM-4 All Tools 與 GPT-4 Turbo 相當。
通過Function Call功能,GLM-4可以接受一個函數的描述,然后自動找到對應的函數并產生恰當的參數來執行它。這意味著即使用戶不具備編程知識,也能夠利用GLM-4完成一系列專業任務。此外,對于需要多次執行的命令,GLM-4支持批量處理,極大提高了效率。
5、多工具自動調用
在處理一些需要綜合利用多種工具才能解決的問題時,GLM-4展現了其卓越的聯合作戰能力。例如,一個復雜的問題可能需要網絡搜索獲取信息、代碼解釋器計算結果以及文生圖來制作圖表展示。GLM-4可以流暢地在這些工具之間切換,無需用戶進行任何額外的操作或指令輸入,所有的工作都在后臺自動完成。
五、開發者平臺對比
GPT有提供給開發人員使用的API開發者平臺,我們注冊后可以進行ChatGPT的體驗,獲取API KEY調用相關API,實現自己的AI應用開發。
為了方便開發者利用這些高級功能,清華智譜提供了MaaS開放平臺,類似于OpenAI的API開發者平臺。對于國內用戶而言,GLM的平臺更為便捷,不受網絡限制。
六、大模型生態對比
清華智譜在生態上基本上完全對標OpenAI來打造的,例如有對標ChatGPT的智譜清言,有對標GPT4的GLM4; 也有對比GPTs的GLMs,另外GLM也有開發自己的Store,以及后面推出GLM4-Assistant API。
智譜清言 | OpenAI |
---|---|
GLM-4 | GPT-4 |
GLMs | GPTs |
GLM Store | GPT Store |
GLM-4 Assistant API | OpenAI Assistant API |
七、開放平臺注冊使用
開放平臺的注冊過程簡單明了,用戶注冊后,并獲得初始的API KEY。新用戶會獲得一定額度的免費token,以便測試和使用。充值也極為方便,支持微信和支付寶支付。此外,開放平臺上還有知識庫和應用中心等功能,允許用戶上傳自己的知識庫,并在無代碼的環境中開發應用。體驗中心則可以讓用戶直接體驗大模型的功能,進行實際的對話和測試。
1、賬號注冊
首先,用戶需要通過https://open.bigmodel.cn/login訪問開放平臺的注冊頁面。這個過程非常直觀和友好,不需要特殊的網絡技巧,確保了國內外的用戶都能輕松進入。完成注冊后,用戶將獲得一個賬戶,這是開啟GLM-4之旅的第一步。
2、生成API KEY
擁有賬戶后,用戶登錄平臺并自動獲得一個獨一無二的API KEY,這是調用GLM-4 API的憑證。如果需要,用戶還可以在賬戶設置中生成更多的API KEY,或對已有的KEY進行管理,以滿足不同開發環境和場景的需要。
3、額度查看
開放平臺為用戶提供了一個初始的免費token額度,讓用戶能夠體驗GLM-4的功能而無需擔心費用。一旦用戶的免費額度用完,可以通過微信或支付寶等便捷的支付方式進行充值,這既方便又安全。
4、知識庫
知識庫是應用開發的核心,尤其是在構建智能問答系統時。開放平臺向用戶提供了易于操作的界面來上傳和管理自己的知識庫。這些知識庫可以包含結構化數據、文檔、圖片等,用于訓練模型或增強其回答質量。
知識庫準備:自己本地整理一個word或者PDF的問答類的知識庫信息,如下:
5、應用中心
在應用中心,用戶可以發現如何無代碼創建自己的AI應用。平臺提供了詳細的指導和模板,使得即便是沒有編程背景的用戶也能夠利用GLM-4的能力,打造個性化的AI服務。
比如我們前面很多篇章中講到的知識庫應用;提前準備好知識庫;填寫好相關機器人應用的信息,即可在體驗中心進行體驗使用。
6、體驗中心
為了測試和展示大模型的能力,體驗中心提供了多種預設的場景和應用示例。用戶可以直接與GLM-4進行互動,體驗它的多功能性。同時,用戶也可以從體驗中心切換到自己定制的應用,實時觀察和評估它們的性能。
同時在體驗中心,我們可以體驗大模型的功能,進行對話聊天;也可以從右側菜單欄中,切換為應用
切換為應用后,就可以看到我們前面自己創建的額“問答測試機器人了”,可以直接進行體驗測試;另外也可以在右邊欄中查看關聯的知識庫情況。
7、知識庫應用測試
當用戶基于自己的知識庫對模型進行提問時,可以準確評估GLM-4對于特定信息的處理能力。這種測試不僅可以用來檢驗模型的效果,還能夠幫助用戶理解和改善知識庫的結構和內容,以獲得更優的用戶體驗。
對自己前面上傳的知識庫,進行問答測試,發現精準度還是非常高的。
八、API簡單測試
安裝依賴
pip install --upgrade zhipuai
請求示例
from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 填寫您自己的APIKey
response = client.chat.completions.create(model="glm-4", # 填寫需要調用的模型名稱messages=[{"role": "user", "content": "作為一名營銷專家,請為智譜開放平臺創作一個吸引人的slogan"},{"role": "assistant", "content": "當然,為了創作一個吸引人的slogan,請告訴我一些關于您產品的信息"},{"role": "user", "content": "智譜AI開放平臺"},{"role": "assistant", "content": "智啟未來,譜繪無限一智譜AI,讓創新觸手可及!"},{"role": "user", "content": "創造一個更精準、吸引人的slogan"}],
)
print(response.choices[0].message)
輸出:
{"created": 1703487403,"id": "8239375684858666781","model": "glm-4","request_id": "8239375684858666781","choices": [{"finish_reason": "stop","index": 0,"message": {"content": "智繪藍圖,AI驅動 —— 智譜AI,讓每一刻創新成為可能。","role": "assistant"}}],"usage": {"completion_tokens": 217,"prompt_tokens": 31,"total_tokens": 248}
}
總結
GLM-4的推出不僅是國產AI技術的一大飛躍,也為國內外的研究者和開發者提供了更多的可能性。其強大的功能和卓越的性能,無疑將在未來的AI領域中發揮重要作用。隨著開放平臺的不斷完善和大模型生態的逐漸成熟,我們有理由期待GLM-4將帶來更多的創新和應用。
🎯🔖更多專欄系列文章:AIGC-AI大模型探索之路
如果文章內容對您有所觸動,別忘了點贊、?關注,收藏!加入我,讓我們攜手同行AI的探索之旅,一起開啟智能時代的大門!