RAG 工業落地方案框架（Qanything、RAGFlow、FastGPT、智譜RAG）細節比對！CVPR自動駕駛最in挑戰賽賽道，全球冠軍被算力選手奪走了

RAG 工業落地方案框架（Qanything、RAGFlow、FastGPT、智譜RAG）細節比對！CVPR自動駕駛最in挑戰賽賽道，全球冠軍被算力選手奪走了。

在這里插入圖片描述

本文詳細比較了四種 RAG 工業落地方案 ——Qanything、RAGFlow、FastGPT 和智譜 RAG，重點分析了它們在知識處理、召回模塊、重排模塊、大模型處理、Web 服務和切詞處理等方面的具體實現。Qanything 在 rerank 模塊設計上表現出色；RAGFlow 在文檔處理方面優勢明顯；FastGPT 提供了高度動態配置的模塊；智譜 RAG 則在領域數據上的模型微調上有著特殊的優勢。每個方案都有其獨特的技術細節和適用場景，強調了在實際應用中，選擇合適的技術實現以及對細節的精細化處理對于項目的成功至關重要。

用強化學習解決現實問題：Stochasticity、Scale、GAE與Curriculum Learning
文章探討了強化學習在現實問題解決中的應用，特別是如何處理隨機性（Stochasticity）和規模（Scale）問題。作者通過實例說明了在手機操作系統中完成查資料和購物任務的 RL 模型，強調了顯式建模隨機性的重要性。為了應對數據需求，開發了多機分布式并行腳本以大規模收集數據。此外，文章提出了使用任務完成情況作為整體軌跡的獎勵，而非單步獎勵，以簡化評估過程。
在模型選擇上，作者使用了參數量為 1.5B 的小模型，并通過與 GPT-4 的比較展示了其性能優勢。文章還提供了 base 模型選擇的建議，即選擇性能不差且大小適中的模型，以便于訓練。算法方面，提出了 Filtered AWR 和 GAE 的簡化版本，以及 Automatic Curriculum Learning 策略，這些都是為了更好地適應現實問題的復雜性。實驗結果顯示，所提出的方法在性能上超越了現有的 agent，如 GPT-4 和 Gemini，并在相同數據集上也表現出色。作者最終開源了代碼和模型，邀請社區參與和驗證這些研究成果。

在這里插入圖片描述

Chameleon和Florence-2
Chameleon 模型采用前融合技術，通過單一 tokenizer 同時處理視覺和語言信息，實現端到端的多模態學習。它使用 VQGAN 進行圖像編碼，將圖像轉換為離散的 tokens，并與文本 tokens 一起輸入到 Transformer 模型中。這種方法使得不同模態的特征能夠在同一表征空間內被有效地關聯，提高了模型學習的效率。
Florence-2 模型雖然采用后融合方式，但在多 CV 任務上展現了卓越的性能，能夠處理包括 VQA、視覺地面化、OCR 等多種任務。它的模型規模較小，但通過多任務學習，取得了與大型模型相當的效果。Florence-2 的成功表明，多模態模型在處理復雜的計算機視覺任務時，不僅要關注前融合技術，還要優化模型結構和訓練方法，以適應實際應用的需求。

在這里插入圖片描述

Agent Attention：集成 Softmax 和 Linear 注意力機制
注意力機制 (Attention module) 是 Transformers 中的關鍵組成部分。雖然全局的注意力機制具有很高的表征能力，但其計算成本較大，限制了其在各種場景下的適用性。本文提出一種新的注意力范式 Agent Attention，目的在計算效率和表征能力之間取得良好的平衡。具體而言，Agent Attention 表示為四元組 (𝑄,𝐴,𝐾,𝑉) ，在傳統的注意力模塊中引入了一組額外的 Agent token 𝐴 。Agent token 首先充當 Query token 𝑄 的代理來聚合來自 𝐾 和 𝑉 的信息，然后將信息廣播回 𝑄。鑒于 Agent token 的數量可以設計為遠小于 Query token 的數量，代理注意力明顯比 Softmax 注意力更有效，同時保留了全局上下文建模能力。
有趣的是，本文展示了 Agent attention 等效于 Linear attention 的廣義形式。因此，代理注意力無縫集成了強大的 Softmax attention 和高效的 Linear attention。
作者通過大量實驗表明，Agent attention 在各種視覺任務中證明了有效性，包括圖像分類、目標檢測、語義分割和圖像生成。而且，代理注意力在高分辨率場景中表現出顯著的性能，這得益于其線性注意力性質。例如，當應用于 Stable Diffusion 時，Agent attention 會加速生成并顯著提高圖像生成質量，且無需任何額外的訓練。

在這里插入圖片描述

昇騰AI原生創新算子挑戰賽S1——算子優化詳解
昇騰 AI 原生創新算子挑戰賽 S1是一個旨在優化 AI 算子性能的競賽。競賽分為初賽和決賽兩個階段，通過對算子進行原生優化，提高其在昇騰處理器上的執行效率。初賽要求參賽者對指定算子進行優化，并通過評測系統評估性能。評測標準包括性能提升比例和最終性能排名。決賽則是邀請初賽中表現最佳的選手進行線下深度優化比賽。競賽提供了算子優化的學習資源，包括基礎知識、實踐技巧和高級優化方法。重點強調技術細節，如算子內存訪問優化、計算密集型操作簡化、并行化處理等，以實現更高效的 AI 計算。此外，競賽鼓勵參賽者探索創新的優化策略，以期在未來的 AI 領域中實現更大的性能突破。

華泰 | 電子：AI大模型需要什么樣的硬件？
AI 大模型技術的快速發展對硬件產品提出了新的要求。在技術細節上，AI 大模型需要更高的算力支持，這導致了 SoC 中 NPU 算力的提升和存儲容量的擴展。例如，AI PC 的推出需要具備 NPU 提供的邊緣算力能力，以及內置大模型的能力。在軟件層面，AI 大模型的應用推動了系統架構和應用方面的匹配，如 AI 智能手機的智能體開發平臺和專屬智能體的提供。此外，AI 大模型在具身智能、自動駕駛和人形機器人等領域的應用，涉及到感知、決策和控制等多個環節的技術細節，這些細節包括但不限于大模型的多模態能力、運動控制算法的優化以及硬件級的安全芯片的使用。在云計算方面，AI 大模型的部署和服務化，如 MaaS 模式，也依賴于高效的算力和數據處理技術。

在這里插入圖片描述

HuggingFace&Github

01
Maestro
Maestro是一個Python框架,可以利用Anthropic的AI模型(如Opus和Haiku)來協調和執行復雜的任務。它可以將目標任務分解為更小的可管理子任務,利用子模型獨立執行這些子任務,然后將結果匯總優化為最終輸出。這種AI輔助的任務分解和執行方法可以提高復雜目標的完成效率和質量。
https://github.com/Doriandarko/maestro

02
DiffSynth-Studio
DiffSynth-Studio是一個基于擴散模型的視頻合成框架,提供了多種創新性功能,包括視頻合成、去閃爍、卡通風格渲染等。它重構了文本編碼器、UNet、VAE等核心架構,在保持與開源社區模型兼容的同時,也大幅提高了計算性能。
DiffSynth-Studio支持多種先進的擴散模型,如Stable Diffusion、ControlNet、Stable Video Diffusion等,并且還提出了ExVideo等新技術來增強視頻生成的能力。

https://github.com/modelscope/DiffSynth-Studio

CVPR自動駕駛最in挑戰賽賽道，全球冠軍被算力選手奪走了

浪潮信息AI團隊，在自動駕駛領域再奪一冠！

不久前，計算機視覺領域的頂級學術會議CVPR在全球目光注視中順利落幕，并正式公布了最佳論文等獎項。除誕生了絕佳的10 篇論文之外，另一場備受關注的自動駕駛國際挑戰賽也在同期結束了“巔峰廝殺”。

就在CVPR 2024自動駕駛國際挑戰賽“Occupancy & Flow”賽道中，浪潮信息AI團隊以48.9%的出色成績，從全球90余支頂尖AI團隊中脫穎而出，摘下桂冠。

這也是該團隊在2022年、2023年登頂nuScenes 3D目標檢測榜單后，面向Occupancy技術的又一次實力展示。

CVPR 2024自動駕駛國際挑戰賽是國際計算機視覺與模式識別會議（IEEE/CVF Conference on Computer Vision and Pattern Recognition）的一個重要組成部分，專注于自動駕駛領域的技術創新和應用研究。今年的CVPR自動駕駛國際挑戰賽賽道設置也非常之有意思了，完整地包含了感知、預測、規劃三大方向七個賽道。

此次浪潮信息AI團隊所登頂的占據柵格和運動估計（Occupancy & Flow）賽道，也正是本屆CVPR自動駕駛國際挑戰賽最受關注的賽道，聚焦感知任務，吸引了全球17個國家和地區，90余支頂尖AI團隊參與挑戰。

比賽提供了基于nuScenes數據集的大規模占用柵格數據與評測標準, 要求參賽隊伍利用相機圖像信息對柵格化三維空間的占據情況（Occupancy）和運動（Flow）進行預測，以此來評估感知系統對高度動態及不規則駕駛場景的表示能力。

占據柵格 Occupancy：挑戰更精細的環境感知與預測
道路布局的復雜性、交通工具的多樣性以及行人流量的密集性，是當前城市道路交通的現狀，也是自動駕駛領域面臨的現實挑戰。為了應對這一挑戰，有效的障礙物識別和避障策略，以及對三維環境的感知和理解就變得至關重要。

傳統的三維物體檢測方法通常使用邊界框來表示物體的位置和大小，但對于幾何形狀復雜的物體，這種方法往往無法準確描述其形狀特征，同時也會忽略對背景元素的感知。因此，基于三維邊界框的傳統感知方法已經無法滿足復雜道路環境下的精準感知和預測需求。

Occupancy Networks（占據柵格網絡）作為一種全新的自動駕駛感知算法，通過獲取立體的柵格占據信息，使系統能夠在三維空間中確定物體的位置和形狀，進而有效識別和處理那些未被明確標注或形狀復雜的障礙物，如異形車、路上的石頭、散落的紙箱等。

這種占據柵格網絡使得自動駕駛系統能夠更準確地理解周圍的環境，不僅能識別物體，還能區分靜態和動態物體。并以較高的分辨率和精度表示三維環境，對提升自動駕駛系統在復雜場景下的安全性、精度和可靠性至關重要。

浪潮信息AI團隊創賽道最高成績
在占據柵格和運動估計（Occupancy & Flow）賽道中，浪潮信息AI團隊以48.9%的絕佳性能表現，創下本賽道最高成績。

具體而言，團隊所提交的“F-OCC”算法模型，憑借先進的模型結構設計、數據處理能力和算子優化能力，實現了該賽道最強模型性能，在RayIoU（基于投射光線的方式評估柵格的占用情況）及mAVE（平均速度誤差）兩個評測指標中均獲得最高成績。

更簡潔高效的模型架構，實現運算效率與檢測性能雙突破
首先，模型整體選擇基于前向投影的感知架構，并采用高效且性能良好的FlashInternImage模型。

同時，通過對整體流程進行超參調優、算子加速等優化，在占據柵格和運動估計均獲得最高分的同時，提升了模型的運算效率，加快了模型迭代與推理速度。

在實際應用場景中，這種改進使得模型能夠更快速、高效地處理大規模3D體素數據，使得自動駕駛車輛能更好地理解環境，進而提升決策的準確度和實時性。

更強大完善的數據處理，全面提升模型檢測能力
在數據處理方面，比賽提供的體素（Voxel）標簽包含了大量在圖像中無法觀測到的點，例如被物體遮擋的體素和物體內部不可見的體素，這些標簽在訓練過程中會對基于圖像數據的預測網絡訓練產生干擾。

在訓練數據中，浪潮信息AI團隊通過模擬LiDAR光束的方法，生成可視化掩碼，提升了模型的預測精度；另一方面，通過引入感知范圍邊緣的體素點參與訓練，有效解決出現在感知邊緣區域的誤檢問題，將模型的整體檢測性能提升11%。

更精細的3D體素編碼，模型占據預測能力提升超5%
在3D體素特征編碼模塊中，該算法團隊將具有較大感知范圍和編碼能力的可形變卷積操作應用于3D體素數據，以提升3D特征的表示能力。

通過使用CUDA對可形變3D卷積（DCN3D）進行實現與優化，大幅提升了模型的運算速度，并有效降低了顯存消耗。

通過DCN3D替代傳統3D卷積，模型整體占據預測能力提升超5%。

此外，基于開源大模型，浪潮信息AI團隊也通過優化圖像encoder模型和特征融合對齊方式，并從CoT（Chain of Thought）、GoT（Graph of Thought）、Prompt工程等方面優化，提升了多模態模型對自動駕駛BEV圖像的感知理解能力。最終以74.2%的成績，摘得本屆CVPR自動駕駛國際挑戰賽 “大語言模型在自動駕駛中的應用”（LLM4AD）賽道的第五名。

2022年，浪潮信息AI團隊摘得nuScenes競賽的純視覺3D目標檢測任務（nuScenes Detection task）第一名，并一舉將關鍵性指標NDS提高至62.4%。

2023年，這支團隊再度奪冠，以77.6%的高分成績再創3D目標檢測全賽道最高成績。

從BEV純視覺到BEV多模態，再至如今憑借“F-OCC”算法模型再度登頂CVPR 2024自動駕駛國際挑戰賽，占據柵格和運動估計任務（Occupancy & Flow）榜首。浪潮信息AI團隊逐步探索，一路絕殺，為探索更高級別的自動駕駛技術提供了有力的支撐和經驗。