RAG 工業落地方案框架(Qanything、RAGFlow、FastGPT、智譜RAG)細節比對!CVPR自動駕駛最in挑戰賽賽道,全球冠軍被算力選手奪走了

RAG 工業落地方案框架(Qanything、RAGFlow、FastGPT、智譜RAG)細節比對!CVPR自動駕駛最in挑戰賽賽道,全球冠軍被算力選手奪走了。

在這里插入圖片描述

本文詳細比較了四種 RAG 工業落地方案 ——Qanything、RAGFlow、FastGPT 和智譜 RAG,重點分析了它們在知識處理、召回模塊、重排模塊、大模型處理、Web 服務和切詞處理等方面的具體實現。Qanything 在 rerank 模塊設計上表現出色;RAGFlow 在文檔處理方面優勢明顯;FastGPT 提供了高度動態配置的模塊;智譜 RAG 則在領域數據上的模型微調上有著特殊的優勢。每個方案都有其獨特的技術細節和適用場景,強調了在實際應用中,選擇合適的技術實現以及對細節的精細化處理對于項目的成功至關重要。

用強化學習解決現實問題:Stochasticity、Scale、GAE與Curriculum Learning
文章探討了強化學習在現實問題解決中的應用,特別是如何處理隨機性(Stochasticity)和規模(Scale)問題。作者通過實例說明了在手機操作系統中完成查資料和購物任務的 RL 模型,強調了顯式建模隨機性的重要性。為了應對數據需求,開發了多機分布式并行腳本以大規模收集數據。此外,文章提出了使用任務完成情況作為整體軌跡的獎勵,而非單步獎勵,以簡化評估過程。
在模型選擇上,作者使用了參數量為 1.5B 的小模型,并通過與 GPT-4 的比較展示了其性能優勢。文章還提供了 base 模型選擇的建議,即選擇性能不差且大小適中的模型,以便于訓練。算法方面,提出了 Filtered AWR 和 GAE 的簡化版本,以及 Automatic Curriculum Learning 策略,這些都是為了更好地適應現實問題的復雜性。實驗結果顯示,所提出的方法在性能上超越了現有的 agent,如 GPT-4 和 Gemini,并在相同數據集上也表現出色。作者最終開源了代碼和模型,邀請社區參與和驗證這些研究成果。

在這里插入圖片描述

Chameleon和Florence-2
Chameleon 模型采用前融合技術,通過單一 tokenizer 同時處理視覺和語言信息,實現端到端的多模態學習。它使用 VQGAN 進行圖像編碼,將圖像轉換為離散的 tokens,并與文本 tokens 一起輸入到 Transformer 模型中。這種方法使得不同模態的特征能夠在同一表征空間內被有效地關聯,提高了模型學習的效率。
Florence-2 模型雖然采用后融合方式,但在多 CV 任務上展現了卓越的性能,能夠處理包括 VQA、視覺地面化、OCR 等多種任務。它的模型規模較小,但通過多任務學習,取得了與大型模型相當的效果。Florence-2 的成功表明,多模態模型在處理復雜的計算機視覺任務時,不僅要關注前融合技術,還要優化模型結構和訓練方法,以適應實際應用的需求。

在這里插入圖片描述

Agent Attention:集成 Softmax 和 Linear 注意力機制
注意力機制 (Attention module) 是 Transformers 中的關鍵組成部分。雖然全局的注意力機制具有很高的表征能力,但其計算成本較大,限制了其在各種場景下的適用性。本文提出一種新的注意力范式 Agent Attention,目的在計算效率和表征能力之間取得良好的平衡。具體而言,Agent Attention 表示為四元組 (𝑄,𝐴,𝐾,𝑉) ,在傳統的注意力模塊中引入了一組額外的 Agent token 𝐴 。Agent token 首先充當 Query token 𝑄 的代理來聚合來自 𝐾 和 𝑉 的信息,然后將信息廣播回 𝑄。鑒于 Agent token 的數量可以設計為遠小于 Query token 的數量,代理注意力明顯比 Softmax 注意力更有效,同時保留了全局上下文建模能力。
有趣的是,本文展示了 Agent attention 等效于 Linear attention 的廣義形式。因此,代理注意力無縫集成了強大的 Softmax attention 和高效的 Linear attention。
作者通過大量實驗表明,Agent attention 在各種視覺任務中證明了有效性,包括圖像分類、目標檢測、語義分割和圖像生成。而且,代理注意力在高分辨率場景中表現出顯著的性能,這得益于其線性注意力性質。例如,當應用于 Stable Diffusion 時,Agent attention 會加速生成并顯著提高圖像生成質量,且無需任何額外的訓練。

在這里插入圖片描述

昇騰AI原生創新算子挑戰賽S1——算子優化詳解
昇騰 AI 原生創新算子挑戰賽 S1是一個旨在優化 AI 算子性能的競賽。競賽分為初賽和決賽兩個階段,通過對算子進行原生優化,提高其在昇騰處理器上的執行效率。初賽要求參賽者對指定算子進行優化,并通過評測系統評估性能。評測標準包括性能提升比例和最終性能排名。決賽則是邀請初賽中表現最佳的選手進行線下深度優化比賽。競賽提供了算子優化的學習資源,包括基礎知識、實踐技巧和高級優化方法。重點強調技術細節,如算子內存訪問優化、計算密集型操作簡化、并行化處理等,以實現更高效的 AI 計算。此外,競賽鼓勵參賽者探索創新的優化策略,以期在未來的 AI 領域中實現更大的性能突破。

華泰 | 電子:AI大模型需要什么樣的硬件?
AI 大模型技術的快速發展對硬件產品提出了新的要求。在技術細節上,AI 大模型需要更高的算力支持,這導致了 SoC 中 NPU 算力的提升和存儲容量的擴展。例如,AI PC 的推出需要具備 NPU 提供的邊緣算力能力,以及內置大模型的能力。在軟件層面,AI 大模型的應用推動了系統架構和應用方面的匹配,如 AI 智能手機的智能體開發平臺和專屬智能體的提供。此外,AI 大模型在具身智能、自動駕駛和人形機器人等領域的應用,涉及到感知、決策和控制等多個環節的技術細節,這些細節包括但不限于大模型的多模態能力、運動控制算法的優化以及硬件級的安全芯片的使用。在云計算方面,AI 大模型的部署和服務化,如 MaaS 模式,也依賴于高效的算力和數據處理技術。

在這里插入圖片描述

HuggingFace&Github

01
Maestro
Maestro是一個Python框架,可以利用Anthropic的AI模型(如Opus和Haiku)來協調和執行復雜的任務。它可以將目標任務分解為更小的可管理子任務,利用子模型獨立執行這些子任務,然后將結果匯總優化為最終輸出。這種AI輔助的任務分解和執行方法可以提高復雜目標的完成效率和質量。
https://github.com/Doriandarko/maestro

02
DiffSynth-Studio
DiffSynth-Studio是一個基于擴散模型的視頻合成框架,提供了多種創新性功能,包括視頻合成、去閃爍、卡通風格渲染等。它重構了文本編碼器、UNet、VAE等核心架構,在保持與開源社區模型兼容的同時,也大幅提高了計算性能。
DiffSynth-Studio支持多種先進的擴散模型,如Stable Diffusion、ControlNet、Stable Video Diffusion等,并且還提出了ExVideo等新技術來增強視頻生成的能力。

https://github.com/modelscope/DiffSynth-Studio


CVPR自動駕駛最in挑戰賽賽道,全球冠軍被算力選手奪走了

浪潮信息AI團隊,在自動駕駛領域再奪一冠!

不久前,計算機視覺領域的頂級學術會議CVPR在全球目光注視中順利落幕,并正式公布了最佳論文等獎項。除誕生了絕佳的10 篇論文之外,另一場備受關注的自動駕駛國際挑戰賽也在同期結束了“巔峰廝殺”。

就在CVPR 2024自動駕駛國際挑戰賽“Occupancy & Flow”賽道中,浪潮信息AI團隊以48.9%的出色成績,從全球90余支頂尖AI團隊中脫穎而出,摘下桂冠。

這也是該團隊在2022年、2023年登頂nuScenes 3D目標檢測榜單后,面向Occupancy技術的又一次實力展示。

CVPR 2024自動駕駛國際挑戰賽是國際計算機視覺與模式識別會議(IEEE/CVF Conference on Computer Vision and Pattern Recognition)的一個重要組成部分,專注于自動駕駛領域的技術創新和應用研究。今年的CVPR自動駕駛國際挑戰賽賽道設置也非常之有意思了,完整地包含了感知、預測、規劃三大方向七個賽道。

此次浪潮信息AI團隊所登頂的占據柵格和運動估計(Occupancy & Flow)賽道,也正是本屆CVPR自動駕駛國際挑戰賽最受關注的賽道,聚焦感知任務,吸引了全球17個國家和地區,90余支頂尖AI團隊參與挑戰。

比賽提供了基于nuScenes數據集的大規模占用柵格數據與評測標準, 要求參賽隊伍利用相機圖像信息對柵格化三維空間的占據情況(Occupancy)和運動(Flow)進行預測,以此來評估感知系統對高度動態及不規則駕駛場景的表示能力。

占據柵格 Occupancy:挑戰更精細的環境感知與預測
道路布局的復雜性、交通工具的多樣性以及行人流量的密集性,是當前城市道路交通的現狀,也是自動駕駛領域面臨的現實挑戰。為了應對這一挑戰,有效的障礙物識別和避障策略,以及對三維環境的感知和理解就變得至關重要。

傳統的三維物體檢測方法通常使用邊界框來表示物體的位置和大小,但對于幾何形狀復雜的物體,這種方法往往無法準確描述其形狀特征,同時也會忽略對背景元素的感知。因此,基于三維邊界框的傳統感知方法已經無法滿足復雜道路環境下的精準感知和預測需求。

Occupancy Networks(占據柵格網絡)作為一種全新的自動駕駛感知算法,通過獲取立體的柵格占據信息,使系統能夠在三維空間中確定物體的位置和形狀,進而有效識別和處理那些未被明確標注或形狀復雜的障礙物,如異形車、路上的石頭、散落的紙箱等。

這種占據柵格網絡使得自動駕駛系統能夠更準確地理解周圍的環境,不僅能識別物體,還能區分靜態和動態物體。并以較高的分辨率和精度表示三維環境,對提升自動駕駛系統在復雜場景下的安全性、精度和可靠性至關重要。

浪潮信息AI團隊創賽道最高成績
在占據柵格和運動估計(Occupancy & Flow)賽道中,浪潮信息AI團隊以48.9%的絕佳性能表現,創下本賽道最高成績。

具體而言,團隊所提交的“F-OCC”算法模型,憑借先進的模型結構設計、數據處理能力和算子優化能力,實現了該賽道最強模型性能,在RayIoU(基于投射光線的方式評估柵格的占用情況)及mAVE(平均速度誤差)兩個評測指標中均獲得最高成績。

更簡潔高效的模型架構,實現運算效率與檢測性能雙突破
首先,模型整體選擇基于前向投影的感知架構,并采用高效且性能良好的FlashInternImage模型。

同時,通過對整體流程進行超參調優、算子加速等優化,在占據柵格和運動估計均獲得最高分的同時,提升了模型的運算效率,加快了模型迭代與推理速度。

在實際應用場景中,這種改進使得模型能夠更快速、高效地處理大規模3D體素數據,使得自動駕駛車輛能更好地理解環境,進而提升決策的準確度和實時性。

更強大完善的數據處理,全面提升模型檢測能力
在數據處理方面,比賽提供的體素(Voxel)標簽包含了大量在圖像中無法觀測到的點,例如被物體遮擋的體素和物體內部不可見的體素,這些標簽在訓練過程中會對基于圖像數據的預測網絡訓練產生干擾。

在訓練數據中,浪潮信息AI團隊通過模擬LiDAR光束的方法,生成可視化掩碼,提升了模型的預測精度;另一方面,通過引入感知范圍邊緣的體素點參與訓練,有效解決出現在感知邊緣區域的誤檢問題,將模型的整體檢測性能提升11%。

更精細的3D體素編碼,模型占據預測能力提升超5%
在3D體素特征編碼模塊中,該算法團隊將具有較大感知范圍和編碼能力的可形變卷積操作應用于3D體素數據,以提升3D特征的表示能力。

通過使用CUDA對可形變3D卷積(DCN3D)進行實現與優化,大幅提升了模型的運算速度,并有效降低了顯存消耗。

通過DCN3D替代傳統3D卷積,模型整體占據預測能力提升超5%。

此外,基于開源大模型,浪潮信息AI團隊也通過優化圖像encoder模型和特征融合對齊方式,并從CoT(Chain of Thought)、GoT(Graph of Thought)、Prompt工程等方面優化,提升了多模態模型對自動駕駛BEV圖像的感知理解能力。最終以74.2%的成績,摘得本屆CVPR自動駕駛國際挑戰賽 “大語言模型在自動駕駛中的應用”(LLM4AD)賽道的第五名。

2022年,浪潮信息AI團隊摘得nuScenes競賽的純視覺3D目標檢測任務(nuScenes Detection task)第一名,并一舉將關鍵性指標NDS提高至62.4%。

2023年,這支團隊再度奪冠,以77.6%的高分成績再創3D目標檢測全賽道最高成績。

從BEV純視覺到BEV多模態,再至如今憑借“F-OCC”算法模型再度登頂CVPR 2024自動駕駛國際挑戰賽, 占據柵格和運動估計任務(Occupancy & Flow)榜首。浪潮信息AI團隊逐步探索,一路絕殺,為探索更高級別的自動駕駛技術提供了有力的支撐和經驗。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/41742.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/41742.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/41742.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

git push之后回滾到某個版本

背景 因為粗心在主分支上修改了代碼,push了上去,污染了主分支,希望將主分支之后的修改回滾,包括提交記錄,就是遠程的記錄中回到希望回到的版本,保持干凈。 git push -f 可以做到,會沖掉所有的…

SwiftUI 6.0(iOS 18.0)滾動視圖新增的滾動階段(Scroll Phase)監聽功能趣談

何曾幾時,在 SwiftUI 開發中的禿頭小碼農們迫切需要一種能夠讀取當前滾動狀態的方法。 在過去,他們往往需要借助于 UIKit 的神秘力量。不過這一切在 SwiftUI 6.0 中已成“滄海桑田”。 在本篇博文中,您將學到如下內容: 1. Scroll…

一份適合新手的軟件測試練習項目

最近,不少讀者托我找一個能實際練手的測試項目。開始,我覺得這是很簡單的一件事,但當我付諸行動時,卻發現,要找到一個對新手友好的練手項目,著實困難。 我翻了不下一百個web網頁,包括之前推薦練…

nginx的知識面試易考點

Nginx概念 Nginx 是一個高性能的 HTTP 和反向代理服務。其特點是占有內存少,并發能力強,事實上nginx的并發能力在同類型的網頁服務器中表現較好。 Nginx 專為性能優化而開發,性能是其最重要的考量指標,實現上非常注重效率&#…

C#用鏈表和數組分別實現堆棧

1.鏈表 實現棧的四個基本功能 入棧 出棧 長度 棧頂值 public class 基礎 : MonoBehaviour {public class MyStack{//定義每一個元素的數據結構 //下一個元素 和 該元素的值public class StackData{public StackData next;public object data;public StackData(StackData next,…

linux驅動編程 - kfifo先進先出隊列

簡介: kfifo是Linux Kernel里面的一個 FIFO(先進先出)數據結構,它采用環形循環隊列的數據結構來實現,提供一個無邊界的字節流服務,并且使用并行無鎖編程技術,即當它用于只有一個入隊線程和一個出…

nginx修改網站默認根目錄及發布(linux、centos、ubuntu)openEuler軟件源repo站點

目錄 安裝nginx配置nginx其它權限配置 安裝nginx dnf install -y nginx配置nginx whereis nginxcd /etc/nginx llcd conf.d touch vhost.conf vim vhost.conf 命令模式下輸入:set nu或:set number可以顯示行號 復制如下內容: server {listen 80;server_name…

【0294】Postgres內核 dynahash 之 hash_search 實現原理

相關文章: 【0289】Postgres內核之哈希表(Hash Tables) 【0290】Postgres內核之dynahash(動態哈希表,dynamic hash tables)(概念篇) 【0291】Postgres內核之dynahash table 創建 【0292】Postgres內核源碼之dynahash 插入entry實現 【0293】Postgres內核之創建 dynahas…

ESP32 通過藍牙顯示歌詞代碼示例

通過藍牙協議播放音樂,有的時候需要顯示歌詞,這里就是a2dp庫獲取了歌詞 值得注意的是要想正確獲取到歌詞,必須打開各種播放器的字幕(歌詞)開關 本項目用了三個開源庫 a2dp,tft_espi,xfont. a2dp &#x…

基于python實現的監聽服務接口是否正常,發送異常消息到釘釘群

獲取釘釘機器人 創建釘釘群組(要求至少三個成員)進入群組 設置>機器人>添加機器人選擇自定義機器人 按照要求填寫完獲取到 Webhook的鏈接 實現代碼 from time import sleep import requests import json from datetime import datetime import logging# 配置日志記錄的…

數據結構第11節: B樹

B樹是一種自平衡的樹數據結構,它能夠保持數據排序,并且在插入、刪除和查找操作中具有對數時間復雜度。B樹廣泛應用于文件系統、數據庫和索引中,因為它們可以有效地處理大量數據。 B樹的特點: 所有葉子節點都位于同一層。每個節點…

【】AI八股-神經網絡相關

Deep-Learning-Interview-Book/docs/深度學習.md at master amusi/Deep-Learning-Interview-Book GitHub 網上相關總結: 小菜雞寫一寫基礎深度學習的問題(復制大佬的,自己復習用) - 知乎 (zhihu.com) CV面試問題準備持續更新貼 …

.net 調用海康SDK的跨平臺解決方案

??歡迎點贊 :?? 收藏 ?留言 ?? 如有錯誤敬請指正,賜人玫瑰,手留余香!??本文作者:由webmote 原創??作者格言:新的征程,我們面對的不僅僅是技術還有人心,人心不可測,海水不可量,唯有技術,才是深沉黑夜中的一座閃爍的燈塔序言 上2篇海康SDK使用以及常見的坑…

PCL 點云PFH特征描述子

點云PFH特征描述子 一、概述1.1 概念1.2 算法原理一、代碼實現二、結果示例一、概述 1.1 概念 點特征直方圖PFH(Point Feature Histograms)描述子:用于表示點云中每個點的局部幾何形狀信息,它是一種直方圖描述子,包括了點云的法線方向和曲率信息,PFH描述子可以幫助區分不同…

深入Django(八)

掌握Django的管理后臺 引言 在前七天的教程中,我們介紹了Django的基礎架構、模型、視圖、模板、URL路由、表單系統以及數據庫遷移。今天,我們將深入了解Django的管理后臺,這是一個功能強大的內置管理界面,用于創建、更新、查看和…

【JavaEE精煉寶庫】文件操作(1)——基本知識 | 操作文件——打開實用性編程的大門

目錄 一、文件的基本知識1.1 文件的基本概念:1.2 樹型結構組織和目錄:1.3 文件路徑(Path):1.4 二進制文件 VS 文本文件:1.5 其它: 二、Java 操作文件2.1 方法說明:2.2 使用演示&…

QT面試筆記總計

一 Qt 保證多線程安全? 使互斥鎖保證多線程安全性。QMutex類、。使用讀寫鎖保證多線程安全性,QReadWriteLock。使用信號和槽機制保證多線程安全性。使用顯示切換保證多線程安全性。QTread類。 Qt 中的事件與信號的區別? 事件與信號的實現機制不同;事…

HCIA綜合實驗

學習新思想,爭做新青年。今天學習的是HCIA綜合實驗! 實驗拓撲 實驗需求 總部: 1、除了SW8 SW9是三層交換機,其他交換機均為2層交換機。 2、GW為總部的出口設備,使用單臂路由技術,VLAN10,20,100的網關都在GW…

ERROR: “armeabi-v7a“ not supported for HarmonyOS

IDE 從 devecostudio-mac-4.1.3.700 升級至 devecostudio-mac-5.0.3.403 后拋出了如下異常: ERROR: "armeabi-v7a" not supported for HarmonyOS. 解決辦法 一.entry/build-profile.json5 需 entry/build-profile.json5 的 abiFilters 中移除 "armeabi-v7a&qu…

計算機網絡體系結構詳解:協議與分層

在學習計算機網絡時,理解網絡協議與分層體系結構是至關重要的。本文將詳細介紹這些概念,幫助基礎小白快速入門。 1. 什么是網絡協議 網絡協議是計算機網絡中用于數據交換的規則和標準。這些規則規定了數據格式、時序以及發送和接收數據時的動作。網絡協…