在NVIDIA Orin上用TensorRT對YOLO12進行多路加速并行推理時內存泄漏 (中)

在NVIDIA Orin上用TensorRT對YOLO12進行多路加速并行推理時內存泄漏 (中)

diannao/2025/8/10 13:41:15/文章來源:https://blog.csdn.net/qq_42910179/article/details/150017886

接上篇

在NVIDIA Orin上用TensorRT對YOLO12進行多路加速并行推理時內存泄漏（上）

通過上篇的分析，發現問題在采集數據到傳入GPU之前的階段。但隨著新一輪長時間測試發現，問題依然存在。

在這里插入圖片描述
如上圖，在運行20多分鐘內存開始增長，這個增長只要一開始就會持續直到程序直接卡掉。于是又開啟新一輪的排查。

首先，控制變量，使用YOLO12s-DET的engine模型進行推理測試，內存增長情況如下圖：在7000s(近兩個小時的測試中)，內存都在平穩無變化。
在這里插入圖片描述
于是，繼續摸排問題，發現同樣的前處理，YOLO12-DET是沒有問題，再加上上圖的內存無變化情況，便排除前處理部分。

再次來到后處理及檢測結果轉換部分的內容，😓，饒了一圈再次回來。只能說抓住本質才是解決問題的唯一方法。

由于有之前的經驗，沒有再使用memory_profiler這個工具進行后處理各個部分的內存異常監測。這次我采用比較原始的方法，因為經過多次測試發現了一個內存開始增長的現象，就是只要程序一旦卡頓，內存就開始增長。

在這么做之前，把所有可能的結果都是嘗試了，結果無一解決這個問題。包括及時釋放變量內存、定時強制清理內存等等。

然后，把問題范圍縮小到當前的后處理代碼部分，以及避開內存監測工具。

現在就采用打斷電的方式，再次測試等到程序卡頓現象出現。打斷點就是在可以代碼前面加一行輸出。

print("this is fun1.")
def fun1print("this is fun2.")
def fun2

等到程序停到這里不動的時候就可定定位到程序卡在哪一步了。

很快，程序很快就卡在bbox_iou這里了。程序在這里停住了，然后內存開始持續增長。
在這里插入圖片描述

進一步打斷點，發現程序在bbox_iou的while循環里面空轉。
在這里插入圖片描述
隨即對該死循環進行特殊處理，最新測試如下，5000s內無異常。至此該問題得到解決。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/94909.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/94909.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/94909.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

計數組合學7.17（Murnaghan–Nakayama 規則 )

計數組合學7.17（Murnaghan–Nakayama 規則 )

7.17 Murnaghan–Nakayama 規則我們已經成功地用基 mλm_\lambdamλ?、hλh_\lambdahλ? 和 eλe_\lambdaeλ? 表示了 Schur 函數 sλs_\lambdasλ?。本節我們將考慮冪和對稱函數 pλp_\lambdapλ?。一個斜分劃 λ/μ\lambda / \muλ/μ 是連通的，如果其分拆圖…

閱讀更多...

使用 jlink 構建輕巧的自定義JRE

使用 jlink 構建輕巧的自定義JRE

從 JDK 9 開始，Oracle JDK 和 OpenJDK 不再默認包含獨立的 JRE 目錄，而是提供了 jlink 工具（Java 鏈接器），允許你根據需求自定義生成最小化的 JRE（包含必要的模塊）。以下是使用 jlink 生成 JRE …

閱讀更多...

[IOMMU]面向芯片/SoC驗證工程的IOMMU全景速覽

[IOMMU]面向芯片/SoC驗證工程的IOMMU全景速覽

面向芯片/SoC驗證工程的IOMMU全景速覽摘要：面向芯片/SoC 驗證工程的 IOMMU 全景速覽：包含基礎概念、主流架構要點（ARM SMMU、Intel VT?d、RISC?V IOMMU），Linux 軟件棧關系，SoC 上的驗證方法（功能、錯誤、性能、系統化流程和覆蓋），以及一個可用的“通用 IOMM…

閱讀更多...

Jenkins全鏈路教程——Jenkins用戶權限矩陣配置

Jenkins全鏈路教程——Jenkins用戶權限矩陣配置

在企業級CI/CD場景中，“權限混亂”往往比“構建失敗”更致命——測試員誤刪生產流水線、實習生修改關鍵插件配置、多團隊共用賬號導致責任無法追溯……這些問題，99%都能用權限矩陣徹底解決！今天，我們不僅會拆解權限矩陣的底層邏輯…

閱讀更多...

庫函數蜂鳴器的使用（STC8）

庫函數蜂鳴器的使用（STC8）

使用庫函數控制蜂鳴器（STC8） 在STC8系列單片機中，可以通過庫函數或直接操作寄存器來控制蜂鳴器。以下是基于STC8庫函數的常用方法： GPIO板蜂鳴器 #include "GPIO.h" #include "Delay.h"void GPIO_config()…

閱讀更多...

redis8.0.3部署于mac

redis8.0.3部署于mac

macOS11因版本過低，安裝redis時，Homebrew和源碼編譯兩種方式都無法成功。將操作系統升級至macOS15再安裝。Redis（Remote Dictionary Server）是一個開源的內存數據庫，遵守 BSD 協議，它提供了一個高性能的鍵值…

閱讀更多...

【和春筍一起學C++】（三十三）名稱空間的其他特性

【和春筍一起學C++】（三十三）名稱空間的其他特性

目錄嵌套式名稱空間拓展——未命名的名稱空間嵌套式名稱空間示例代碼1： namespace electronicEquipment {namespace computer{double price 4999.0;string modelNumber;string name;}namespace ElectronicWatch{double price 99.0;string modelNumber;stri…

閱讀更多...

異步電動機負載運行特性全解析

異步電動機負載運行特性全解析

異步電動機負載運行特性詳解 ——從空載到負載的完整分析一、為什么需要再談“負載運行” 在上一篇《感應電動機空載特性深度剖析》中，我們已經看到：空載時，若定子加額定電壓，轉子轉速 $n \approx n_s$（同步轉速&#…

閱讀更多...

使用 Ansys Discovery 進行動態設計和分析

使用 Ansys Discovery 進行動態設計和分析

Ansys Discovery 是一款多功能工具，為創建模型、探索仿真設計和分析解決方案提供了一個單一的交互式工作區。它允許用戶使用直接建模技術創建和修改幾何結構，定義仿真并與結果實時交互。Discovery 支持結構、流體流動、熱和電磁設計，提供直觀…

閱讀更多...

力扣熱題100-----118.楊輝三角

力扣熱題100-----118.楊輝三角

案例給定一個非負整數 numRows，生成「楊輝三角」的前 numRows 行。在「楊輝三角」中，每個數是它左上方和右上方的數的和。示例 1: 輸入: numRows 5 輸出: [[1],[1,1],[1,2,1],[1,3,3,1],[1,4,6,4,1]] 示例 2: 輸入: numRows 1 輸出: [[1]] 提示: 1 …

閱讀更多...

NTP /Chrony 網絡時間協議

NTP /Chrony 網絡時間協議

一、NTP（network time protocol）網絡時間協議：實現時間同步，讓設備時間與國際標準時間保持一致設備日志、服務日志需要記錄時間分布式系統（分布式數據庫、分布式緩存、分布式儲存、消息隊列）時間戳&#xf…

閱讀更多...

VSCode 刷 LeetCode 算法題配置教程

VSCode 刷 LeetCode 算法題配置教程

LeetCode 在線刷題地址：https://leetcode-cn.com/ 一、安裝 Node.js 環境 LeetCode 插件依賴 node.js 運行環境，因此必須先安裝： 前往官網下載安裝：https://nodejs.cn/download/下載好的壓縮包解壓，可以看到當前文件…

閱讀更多...

非常簡單！從零學習如何免費制作一個lofi視頻

非常簡單！從零學習如何免費制作一個lofi視頻

想必大家在網上會看到如下類似的音樂頻道，這類頻道都只是上傳簡單的Lo-Fi音樂帶著循環播放的背景就可以賺錢。那么上面的效果如何實現的呢？今天做一個可以免費制作lo-Fi音樂的教程。 Lo-Fi音樂： Lo-Fi音樂是一種以低保真度和模擬音色為特點…

閱讀更多...

基于 RAUC 的 Jetson OTA 升級全攻略

基于 RAUC 的 Jetson OTA 升級全攻略

📖 推薦閱讀：《Yocto項目實戰教程:高效定制嵌入式Linux系統》 🎥 更多學習視頻請關注 B 站：嵌入式Jerry 基于 RAUC 的 Jetson OTA 升級全攻略 0. 引子：常見問題在 Jetson 平臺做 OTA 升級時，你可能會問&…

閱讀更多...

MySQL 主備（Master-Slave）復制的搭建

MySQL 主備（Master-Slave）復制的搭建

一、主備架構簡介 Master（主庫）：負責處理所有寫操作（INSERT/UPDATE/DELETE），并記錄二進制日志（binlog）。Slave（備庫）：從主庫拉取 binlog&#xff…

閱讀更多...

【三個數絕對值排序】2022-10-10

【三個數絕對值排序】2022-10-10

緣由絕對值比較，總是跑不過怎么辦-編程語言-CSDN問答 template <class 形參> inline void 算交換(形參& a, 形參& b){ 形參 ab a - b; a - ab; b ab; } template <class 形參> void 三個升序(形參& a, 形參& b, 形參& c) {if (a…

閱讀更多...

【LoRA模型訓練】Stable Diffusion LoRA 模型秋葉訓練器詳細教程

【LoRA模型訓練】Stable Diffusion LoRA 模型秋葉訓練器詳細教程

一、工具簡介與安裝指南 1.1 秋葉 LoRA 訓練器概述秋葉 LoRA 訓練器（基于 Akegarasu/lora-scripts 項目）是針對 Stable Diffusion 模型的輕量化微調工具，通過低秩適應（LoRA）技術實現高效參數微調。其核心優勢在于&a…

閱讀更多...

C++2024 年一級

C++2024 年一級

1 單選題 (每題 2 分,共 30 分) 12 ? 題號 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 答案 C C D B B D B C C C D C D B D 第 1 題 2024年10?8? ，諾貝爾物理學獎“意外地”頒給了兩位計算機科學家約翰霍普菲爾德（John J. Hopfield）和杰弗??…

閱讀更多...

react-window

react-window

下面，我們來系統的梳理關于 React 虛擬化列表：react-window 的基本知識點：一、虛擬化列表核心概念 1.1 什么是虛擬化列表？ 虛擬化列表（也稱為窗口化）是一種只渲染當前可見區域列表項的技術，而不…

閱讀更多...

2025AI顛覆認知！解鎖智能新紀元

2025AI顛覆認知！解鎖智能新紀元

清晨的城市還裹著薄霧時，通勤族的手機已經自動規劃好最優路線——避開施工路段、實時更新交通狀況，連早餐店排隊人數都能精準預測。這不是科幻電影里的片段，而是2025年AI深度融入生活的尋常場景。當數字化與智能化浪潮席卷而來，我…

閱讀更多...

最新文章