大語言模型學習

大語言模型發展歷程

當前國內外主流LLM模型

?一、國外主流LLM?

  1. ?LLaMA2?

    • Meta推出的開源模型,參數規模涵蓋70億至700億,支持代碼生成和多領域任務適配?57。
    • 衍生版本包括Code Llama(代碼生成優化)和Llama Chat(對話場景)?56。
  2. ?GPT系列(GPT-3.5/GPT-4)?

    • OpenAI開發的閉源模型,以多模態能力和長文本生成為核心優勢,廣泛應用于對話、代碼生成等場景?38。
  3. ?BLOOM?

    • 由Hugging Face聯合多國團隊開發,1760億參數,支持46種自然語言和13種編程語言,強調透明度和開源協作?5。
  4. ?PaLM & Claude?

    • Google的PaLM和Anthropic的Claude均為閉源模型,前者側重科學計算,后者強化了推理和多模態能力?37。
  5. ?BERT?

    • Google早期基于Transformer架構的模型,雖參數較小(約3.4億),但在自然語言理解任務中仍具影響力?5。

?二、國內主流LLM?

  1. ?文心一言(ERNIE Bot)?

    • 百度研發的知識增強模型,融合萬億級數據和千億級知識圖譜,支持復雜問答和創意生成?37。
  2. ?通義千問?

    • 阿里巴巴推出的開源模型(7B版本),基于Transformer架構,優化中英文混合任務處理?36。
  3. ?ChatGLM系列?

    • 包括ChatGLM-6B(62億參數)和ChatGLM2-6B,支持雙語對話,通過量化技術降低部署成本?14。
    • 衍生模型VisualGLM-6B(78億參數)整合視覺與語言模態,實現圖文交互?46。
  4. ?盤古大模型?

    • 華為開發的多模態模型,覆蓋自然語言處理(NLP)、計算機視覺(CV)及科學計算領域?7。
  5. ?MiLM-6B?

    • 小米研發的64億參數模型,在C-Eval和CMMLU中文評測中表現優異,尤其擅長STEM科目?1。
  6. ?MOSS?

    • 支持中英雙語的開源對話模型,通過強化學習優化生成質量,適用于通用問答場景?14。

?三、其他特色模型?

  • ?CodeFuse-13B?:專精代碼生成,預訓練數據覆蓋40+編程語言,HumanEval評測準確率達37.1%?1。
  • ?鵬程·盤古α?:中文預訓練模型,參數規模達千億級,側重長文本生成和領域適配?6。
  • ?LaWGPT?:基于中文法律知識微調的模型,適用于法律咨詢和文書生成?6。

大模型不足

當前大模型的不足主要體現在以下方面:

一、技術架構缺陷

  1. ?數據與算力依賴過高?
    大模型訓練需消耗海量多模態數據及算力,萬億級參數規模導致資源投入呈指數級增長?12。此外,海量小文件存儲面臨元數據管理挑戰,需平衡擴展性與訪問延時?1。

  2. ?邏輯推理能力薄弱?
    在處理需邏輯推理、數值計算的復雜問題時表現較差,尤其在多步驟推理場景中準確率顯著下降?23。例如20步推理后準確率可能低于36%?4。

  3. ?災難性遺忘與無記憶性?
    訓練新任務會損害原有任務性能,且在推理階段無法記憶歷史數據或場景(如自動駕駛需反復重新計算路況)?23。多數大模型不具備持續記憶能力,依賴有限上下文窗口?38。


二、知識與應用局限

  1. ?知識時效性與領域局限?
    大模型知識庫僅覆蓋訓練數據截止時間點內容,無法實時更新?5。同時缺乏特定領域(如企業私有數據)的專業知識,影響垂直場景應用效果?5。

  2. ?幻覺問題頻發?
    生成內容存在事實性錯誤或虛構信息,例如偽造參考文獻、錯誤解答數學題等。這與基于概率預測的Transformer架構特性直接相關?45。


三、模型可控性不足

  1. ?自我糾錯能力缺失?
    無法識別錯誤來源(如訓練數據缺陷或算法漏洞),更缺乏自主修正機制。典型案例包括GPT-4算術錯誤后無法定位問題根源?23。

  2. ?黑箱模型可解釋性差?
    決策過程不透明,導致醫療、法律等關鍵領域應用受限。調試困難進一步加劇優化挑戰?46。


四、資源與安全風險

  1. ?計算成本高昂?
    訓練與部署需超大規模算力支持,對普通機構形成技術壁壘?16。

  2. ?數據偏見與標注錯誤?
    訓練數據隱含社會偏見可能被放大,人工標注錯誤易導致模型認知偏差?6。

AIGC產業解析

AIGC基礎層

算力基礎 數據基礎 算法基礎

AIGC大模型層

通用基礎大模型? 行業垂直型基礎大模型 業務垂直基礎大模型

AIGC工具層

AI Agents 模型平臺 模型服務 AutoGPT LangChain

AIGC應用層

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/72387.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/72387.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/72387.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

3dsmax烘焙光照貼圖然后在unity中使用

效果預覽 看不清[完蛋!] 實現步驟 使用 軟件 軟體名稱地址photoshophttps://www.adobe.com/products/photoshop.htmlunity3Dhttps://unity.com/3dsmaxhttps://www.autodesk.com.cn/products/3ds-max/free-trialpacker-iohttps://www.uv-packer.com/HDR 貼圖地址…

P8651 [藍橋杯 2017 省 B] 日期問題--注意日期問題中2月的天數 / if是否應該連用

P8651 [P8651 [藍橋杯 2017 省 B] 日期問題--注意日期問題中2月的天數 / if是否應該連用 題目 分析代碼 題目 分析 代碼中巧妙的用到3重循環,完美的解決了輸出的順序問題【題目要求從小到大】 需要注意的是2月的值,在不同的年份中應該更新2月的值 還有…

android 橫豎屏適配工作總結

1、創建一個橫屏文件夾,復制一份豎屏的布局。然后修改適配橫屏。只要布局id都有,其他想怎么改就怎么修改。 2、最好使用kotlin語言編寫和使用viewBinding綁定控件,可以使用?.判空控件是否存在,不至于缺少這個控件時候直接崩潰。 …

VS2022遠程調試Ubuntu中的C++程序

前言 最近想基于星火大模型的SDK開發第一些應用。但是,發現星火的SDK當中Linux版本的比較豐富,Windows 版本支持的比較少。但是,從調試的IDE而言,Visual Studio又是最方便的。所以,考慮采用Visual Studio Ubuntu的形式…

VS Code(Cursor)遠程開發調試教程(超詳細)

前言 📢 聲明:本文配置及開發方法同樣適合Cursor !! 在開始之前,你需要準備以下東西: 本地電腦: 安裝好 VS Code(Windows、Mac 或 Linux 都可以)。 官網下載&#xff0c…

【C++】類與對象:深入理解默認成員函數

類與對象:深入理解默認成員函數 引言1、默認成員函數概述2、構造函數與析構函數2.1 默認構造函數2.2 析構函數 3、拷貝控制成員3.1 拷貝構造函數3.2 賦值運算符重載 4、移動語義(C11)4.1 移動構造函數4.2 移動賦值運算符 5、三五法則與最佳實…

QT實現計算器

1:在注冊登錄的練習里面, 追加一個QListWidget 項目列表 要求:點擊注冊之后,將賬號顯示到 listWidget上面去 以及,在listWidget中雙擊某個賬號的時候,將該賬號刪除 Widget.h #ifndef WIDGET_H #define…

算法進階——二分

二分法: 一種高效查找方法,將問題搜索范圍一分為二,迭代地縮小范圍,直到找到目標。 二分法適用于有序的數據集合。 常見的二分類型有: 整數二分 浮點二分 二分答案 二分解題步驟: 1.研究并發現數據…

Kotlin函數式編程與Lambda表達式

Kotlin函數式編程與Lambda表達式 一、函數式編程基礎 1.1 什么是函數式編程 函數式編程是一種編程范式,它將計算過程視為數學函數的求值,強調使用不可變數據和純函數。在Kotlin中,函數式編程的特性讓我們能夠寫出更簡潔、更易維護的代碼。…

Java 并行流(parallelStream)詳解

目錄 1. 什么是 parallelStream?2. parallelStream 的優勢3. parallelStream 的使用3.1 基本使用3.2 計算總和示例3.3 結合groupingByConcurrent實現線程安全的分組操作 4. parallelStream 的注意事項4.1 適用場景4.2 并行流的局限性 5. 控制并行流線程數6. 總結 1.…

Ubuntu 20.04下配置VSCode以支持OpenCV庫開發

Ubuntu 20.04下配置VSCode以支持OpenCV庫開發 1. 安裝OpenCV庫安裝OpenCV(推薦使用APT安裝)或者從源碼安裝OpenCV(可選) 2. 安裝VSCode的C擴展3. 配置c_cpp_properties.json4. 編寫代碼并測試5. 配置tasks.json(編譯Op…

io學習----->標準io

思維導圖: 一.io的作用 io是實現對文件的操作,把運行結果存到文件中,讀取文件的數據,方便后期查詢。 二.io的概念 io是指系統 和外部設備或用戶之間的數據交互 I:input 表示數據從外部設備輸入到內存中; O:output…

使用消息隊列怎樣防止消息重復?

大家好,我是君哥。 使用消息隊列時,我們經常會遇到一個可能對業務產生影響的問題,消息重復。在訂單、扣款、對賬等對冪等有要求的場景,消息重復的問題必須解決。 那怎樣應對重復消息呢?今天來聊一聊這個話題。 1.三…

005 公網訪問 docker rocketmq

文章目錄 創建自定義網絡創建NameServer容器創建Broker容器正式開始啟動 Nameserver 容器啟動 Broker 容器并關聯 Nameserverdocker exec -it rmqbroker vi /etc/rocketmq/broker.conf檢查 namesrv 解析檢查 Broker 注冊狀態Nameserver 日志Broker 日志檢查容器日志手動指定 Br…

解決Docker Desktop啟動后Docker Engine stopped問題

一、問題描述 當我們更新了Docker Desktop后,在重新打開就顯示【Docker Engine stopped(Docker引擎已經停止)】,無法正常使用Docker,如下圖所示: 二、問題分析 1、檢查電腦主板的CPU是否開啟虛擬化; 2、需檢查Docker所需的功能是否開啟; 3、檢查WSL是否匹配; Docker的…

MongoDB—(一主、一從、一仲裁)副本集搭建

MongoDB集群介紹: MongoDB 副本集是由多個MongoDB實例組成的集群,其中包含一個主節點(Primary)和多個從節點(Secondary),用于提供數據冗余和高可用性。以下是搭建 MongoDB 副本集的詳細步驟&am…

C++STL---<limits>

C <limits> 頭文件&#xff1a; <limits> 頭文件是 C 標準庫中用于獲取各種數據類型的數值范圍、精度等信息的工具。它通過模板類 std::numeric_limits 提供了對基本數據類型&#xff08;如 int、float、double 等&#xff09;的詳細屬性查詢功能。通過 std::nume…

藍橋杯自我復習打卡

總復習&#xff0c;打卡1. 一。排序 1。選段排序 太可惡了&#xff0c;直接全排輸出&#xff0c;一個測試點都沒過。 AC 首先&#xff0c;這個【l,r】區間一定要包含p,或者q&#xff0c;pq一個都不包含的&#xff0c;[l,r]區間無論怎么變&#xff0c;都對ans沒有影響。 其次&…

Flutter_學習記錄_實現列表上拉加載更多的功能

可以用ScrollController組件來實現這樣列表上拉加載更多的功能: 1. 定義變量 在StatefulWidget 的組件內&#xff0c;添加三個屬性&#xff1a; // 滾動視圖的控制器final ScrollController _scrollController ScrollController();// 是否已顯示了上拉加載中bool _isShowM…

【Linux】【網絡】不同子網下的客戶端和服務器通信其它方式

【Linux】【網絡】不同子網下的客戶端和服務器通信其它方式 那么&#xff0c;在 NAT 環境下&#xff0c;應該如何讓內網設備做為服務器&#xff0c;使內網設備被外部連接&#xff1f; 1 多撥 部分運營商&#xff0c;支持在多個設備上&#xff0c;通過 PPPoE 登錄同一個寬帶賬…