【NLP 71、常見大模型的模型結構對比】

三到五年的深耕,足夠讓你成為一個你想成為的人

????????????????????????????????????????????????????????????????????????????????—— 25.5.8?

模型名稱位置編碼Transformer結構多頭機制Feed Forward層設計歸一化層設計線性層偏置項激活函數訓練數據規模及來源參數量應用場景側重
GPT-5 (OpenAI)RoPE動態相對編碼混合專家架構(MoE)128頭MoE專家路由RMSNormGeGLU超10萬億token(互聯網+專有數據)1.8萬億金融風控、醫療診斷、多媒體生成
DeepSeek-V3ALiBi稀疏MoE架構64頭稀疏激活LayerNormSwiGLU5萬億token(學術論文+代碼庫)6710億STEM科研、代碼開發、教育題庫
Google Gemini Ultra絕對位置編碼時空注意力架構256頭多模態跨模態融合GroupNormReLU8萬億token(視頻+文本多模態數據)1.2萬億工業質檢、實驗室自動化、視頻分析
百度文心一言4.0絕對位置編碼搜索增強架構96頭動態知識注入RMSNormGELU4萬億token(百度搜索+古籍數據庫)2600億輿情分析、古籍處理、金融投研
華為盤古3.0ALiBi分層架構(L0-L2)128頭行業知識蒸餾LayerNormGeGLU行業專有數據(氣象、礦山、制藥)1.1萬億氣象預測、礦山安全、藥物研發
Anthropic Claude 3RoPE分步驗證架構64頭道德對齊模塊RMSNormSwish3萬億token(倫理對齊數據集)5200億法律文書、心理咨詢、學術輔助
阿里通義千問旋轉位置編碼MoE+3D生成架構128頭多模態融合LayerNormSwiGLU6萬億token(電商數據+3D模型庫)1.1萬億電商客服、供應鏈優化、3D建模
星火大模型(科大訊飛)相對位置編碼端云協同架構96頭語音增強模塊RMSNormGELU2.5萬億token(教育+醫療專有數據)890億教育輔導、醫療慢病管理、方言交互
豆包大模型(字節)動態窗口編碼稀疏MoE+輕量化32頭情感交互模塊LayerNormReLU3萬億token(短視頻+社交語料)420億短視頻生成、移動端實時推理
悟道大模型雙向相對編碼中英雙語預訓練架構256頭多模態生成GroupNormGeGLU7萬億token(多語言+文化遺產數據)1.75萬億文化遺產數字化、工業設計

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/906799.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/906799.shtml
英文地址,請注明出處:http://en.pswp.cn/news/906799.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[250521] DBeaver 25.0.5 發布:SQL 編輯器、導航器全面升級,新增 Kingbase 支持!

目錄 DBeaver 25.0.5 發布:SQL 編輯器、導航器全面升級,新增 Kingbase 支持! DBeaver 25.0.5 發布:SQL 編輯器、導航器全面升級,新增 Kingbase 支持! 近日,DBeaver 發布了 25.0.5 版本&#xf…

服務器硬盤虛擬卷的處理

目前的情況是需要刪除邏輯卷,然后再重新來弄一遍。 數據已經備份好了,所以不用擔心數據會丟失。 查看服務器的具體情況 使用 vgdisplay 操作查看服務器的卷組情況: --- Volume group ---VG Name vg01System IDFormat …

Flutter 中 build 方法為何寫在 StatefulWidget 的 State 類中

Flutter 中 build 方法為何寫在 StatefulWidget 的 State 類中 在 Flutter 中,build 方法被設計在 StatefulWidget 的 State 類中而非 StatefulWidget 類本身,這種設計基于幾個重要的架構原則和實際考量: 1. 核心設計原因 1.1 生命周期管理…

傳統醫療系統文檔集中標準化存儲和AI智能化更新路徑分析

引言 隨著醫療數智化建設的深入推進,傳統醫療系統如醫院信息系統(HIS)、臨床信息系統(CIS)、護理信息系統(NIS)、影像歸檔與通信系統(PACS)和實驗室信息系統(LIS)已經成為了現代醫療機構不可或缺的技術基礎設施。這些系統各自承擔著不同的功能,共同支撐…

探索常識性概念圖譜:構建智能生活的知識橋梁

目錄 一、知識圖譜背景介紹 (一)基本背景 (二)與NLP的關系 (三)常識性概念圖譜的引入對比 二、常識性概念圖譜介紹 (一)常識性概念圖譜關系圖示例 (二&#xff09…

Linux/aarch64架構下安裝Python的Orekit開發環境

1.背景 國產化趨勢越來越強,從軟件到硬件,從操作系統到CPU,甚至顯卡,就產生了在國產ARM CPU和Kylin系統下部署Orekit的需求,且之前的開發是基于Python的,需要做適配。 2.X86架構下安裝Python/Orekit開發環…

Ctrl+鼠標滾動阻止頁面放大/縮小

項目場景: 提示:這里簡述項目相關背景: 一般在我們做大屏的時候,不希望Ctrl鼠標上下滾動的時候頁面會放大/縮小,那么在有時候,又不希望影響到別的頁面,比如說這個大屏是在另一個管理后臺中&am…

MySQL——復合查詢表的內外連

目錄 復合查詢 回顧基本查詢 多表查詢 自連接 子查詢 where 字句中使用子查詢 單行子查詢 多行子查詢 多列子查詢 from 字句中使用子查詢 合并查詢 實戰OJ 查找所有員工入職時候的薪水情況 獲取所有非manager的員工emp_no 獲取所有員工當前的manager 表的內外…

聊一下CSS中的標準流,浮動流,文本流,文檔流

在網絡上關于CSS的文章中,有時候能聽到“標準流”,“浮動流”,“定位流”等等詞語,還有像“文檔流”,“文本流”等詞,這些流是什么意思?它們是CSS中的一些布局方案和特性。今天我們就來聊一下CS…

python訓練營第33天

MLP神經網絡的訓練 知識點回顧: PyTorch和cuda的安裝查看顯卡信息的命令行命令(cmd中使用)cuda的檢查簡單神經網絡的流程 數據預處理(歸一化、轉換成張量)模型的定義 繼承nn.Module類定義每一個層定義前向傳播流程 定義…

JDK21深度解密 Day 1:JDK21全景圖:關鍵特性與升級價值

【JDK21深度解密 Day 1】JDK21全景圖:關鍵特性與升級價值 引言 歡迎來到《JDK21深度解密:從新特性到生產實踐的全棧指南》系列的第一天。今天我們將探討JDK21的關鍵特性和升級價值。作為近5年最重要的LTS版本,JDK21不僅帶來了性能上的巨大突…

[docker]更新容器中鏡像版本

從peccore-dev倉庫拉取鏡像 docker pull 10.12.135.238:8060/peccore-dev/configserver:v1.13.45如果報錯,請參考docker拉取鏡像失敗,添加倉庫地址 修改/etc/CET/Common/peccore-docker-compose.yml文件中容器的版本,為剛剛拉取的版本 # 配置中心confi…

LVS原理詳解及LVS負載均衡工作模式

什么是虛擬服務器(LVS) 虛擬服務器是高度可擴展且高度可用的服務器 構建在真實服務器集群上。服務器集群的架構 對最終用戶完全透明,并且用戶與 cluster 系統,就好像它只是一個高性能的虛擬 服務器。請考慮下圖。 真實服務器和負…

上位機知識篇---keil IDE操作

文章目錄 前言文件操作按鍵新建打開保存保存所有編輯操作按鍵撤銷恢復復制粘貼剪切全選查找書簽操作按鍵添加書簽跳轉到上一個書簽跳轉到下一個書簽清空所有書簽編譯操作按鍵編譯當前文件構建目標文件重新構建調試操作按鍵進入調試模式復位全速運行停止運行單步調試逐行調試跳出…

前端大文件上傳性能優化實戰:分片上傳分析與實戰

前端文件分片是大文件上傳場景中的重要優化手段,其必要性和優勢主要體現在以下幾個方面: 一、必要性分析 1. 突破瀏覽器/服務器限制 瀏覽器限制:部分瀏覽器對單次上傳文件大小有限制(如早期IE限制4GB) 服務器限制&a…

解決react-router-dom沒有支持name命名使用的問題

1. 前言 react-router-dom 并不能像 vue 的route 那樣給每個路由命名 name ,導致代碼不能解耦路由路徑與導航邏輯。 2. react-router 為什么沒有支持? 很早之前官方 issue 中就有過很多討論: 翻譯過來,就是由于以下幾個重要原…

Spring AI 之結構化輸出轉換器

截至 2024 年 2 月 5 日,舊的 OutputParser、BeanOutputParser、ListOutputParser 和 MapOutputParser 類已被棄用,取而代之的是新的 StructuredOutputConverter、BeanOutputConverter、ListOutputConverter 和 MapOutputConverter 實現類。后者可直接替換前者,并提供相同的…

MCP與AI模型的多語言支持:讓人工智能更懂世界

MCP與AI模型的多語言支持:讓人工智能更懂世界 在人工智能(AI)的時代,我們追求的不僅是強大的計算能力,更是讓AI能夠理解并使用不同語言,真正服務全球用戶。而這背后,一個至關重要的技術就是 MCP(Multi-Context Processing,多上下文處理) ——一種旨在優化 AI 模型理…

【MySQL】 數據庫基礎數據類型

一、數據庫簡介 1.什么是數據庫 數據庫(Database)是一種用于存儲、管理和檢索數據的系統化集合。它允許用戶以結構化的方式存儲大量數據,并通過高效的方式訪問和操作這些數據。數據庫通常由數據庫管理系統(DBMS)管理&…

NRM:快速切換 npm 鏡像源的管理工具指南

🚀 NRM:快速切換 npm 鏡像源的管理工具指南 🔍 什么是 NRM? NRM(Npm Registry Manager) 是一個用于管理 npm 鏡像源的命令行工具。 它能幫助開發者 ?快速切換 不同的 npm 源(如官方源、淘寶源…