NVIDIA TensorRT是一個高性能的深度學習推理優化器和運行時,它提供低延遲和高吞吐量。TensorRT可以從每個深度學習框架導入經過訓練的模型,從而輕松地創建可以集成到大型應用程序和服務中的高效推理引擎。
這個視頻的五個關鍵點:
1.TensorRT支持RNNv2, MatrixMultiply, ElementWise, TopK層。
2.RNNv2層需要單獨設置每個門和層的權重,RNNv2的輸入格式為BSE (Batch, Sequence, embed)。
3.完全連接層也可以用矩陣乘層和Element-Wise 層實現。或者,您可以直接使用TensorRT的完全連接層,但是在將權重輸入到該層之前,需要對其進行重新設置。
4. 可以將引擎序列化到內存塊,然后將內存塊序列化到文件或流。這消除了再次執行優化步驟的需要。
5. 雖然這個示例是用c++構建的,但是您可以使用TensorRT Python API在Python中實現相同的功能。
本視頻演示如何使用NVIDIA TensorRT配置基于字符級語言模型的簡單遞歸神經網絡(RNN)。
視頻將近7分鐘,我們已經翻譯成中文字幕,請耐心觀看。
?新版Matlab居然已經全面集成了對NVIDIA Jetson的支持,這操作...
用Matlab在NVIDIA Jetson平臺上生成和部署目標檢測CUDA代碼小妙招(中文字幕)
如何在NVIDIA GPU上進行混合精度訓練(中文字幕)
如何在Singularity中運行NVIDIA GPU云容器以配置HPC開發環境(中文字幕)
NVIDIA System Profiler 使用介紹(中文字幕)
NVIDIA Jetson攝像頭開發視頻教程
有不明白的地方,請在本文后留言
或者在我們的技術論壇bbs.gpuworld.cn上發帖