模型部署技巧（一）

以下內容是參考CUDA與TensorRT模型部署內容第六章，主要針對圖像的前/后處理中的trick。

參考：
1.部署分類器-int8-calibration
2. cudnn安裝地址
3. 如何查找Tensor版本，與cuda 和 cudnn匹配
4. timing cache

一. 前處理 preprocess

學習目標

分析學習幾種cv::Mat bgr2rgb 的方式，比較運行速度

1. 圖像 BGR2RGB 在cpu中的方式

某些小圖像前處理部分如果放在GPU上跑，并不能充分的硬件資源吃滿，導致硬件資源比較浪費。
如果這種情況出現的話，我們可能會考慮把前處理放在CPU上，DNN的forward部分放在GPU上，進行異步的推理。

1.1 cv::cvtColor

void preprocess_cv_cvtcolor(cv::Mat src, cv::Mat tar){cv::cvtColor(src, tar, cv::COLOR_BGR2RGB);
}

1.2 .at 方式

void preprocess_cv_mat_at(cv::Mat src, cv::Mat tar){for (int i = 0; i < src.rows; i++) {for (int j = 0; j < src.cols; j++) {tar.at<cv::Vec3b>(i, j)[2] = src.at<cv::Vec3b>(i, j)[0];tar.at<cv::Vec3b>(i, j)[1] = src.at<cv::Vec3b>(i, j)[1];tar.at<cv::Vec3b>(i, j)[0] = src.at<cv::Vec3b>(i, j)[2];}}
}

1.3 cv::MatIterator_方式

void preprocess_cv_mat_iterator(cv::Mat src, cv::Mat tar){cv::MatIterator_<cv::Vec3b> src_it = src.begin<cv::Vec3b>();cv::MatIterator_<cv::Vec3b> tar_it = tar.begin<cv::Vec3b>();cv::MatIterator_<cv::Vec3b> end    = src.end<cv::Vec3b>();for (; src_it != end; src_it++, tar_it++) {(*tar_it)[2] = (*src_it)[0];(*tar_it)[1] = (*src_it)[1];(*tar_it)[0] = (*src_it)[2];}
}

1.4 .data方法

void preprocess_cv_mat_data(cv::Mat src, cv::Mat tar){int height   = src.rows;int width    = src.cols;int channels = src.channels();for (int i = 0; i < height; i ++) {for (int j = 0; j < width; j ++) {int index = i * width * channels + j * channels;tar.data[index + 2] = src.data[index + 0];tar.data[index + 1] = src.data[index + 1];tar.data[index + 0] = src.data[index + 2];}}
}

1.5 pointer

void preprocess_cv_pointer(cv::Mat src, cv::Mat tar){for (int i = 0; i < src.rows; i ++) {cv::Vec3b* src_ptr = src.ptr<cv::Vec3b>(i);cv::Vec3b* tar_ptr = tar.ptr<cv::Vec3b>(i);for (int j = 0; j < src.cols; j ++) {tar_ptr[j][2] = src_ptr[j][0];tar_ptr[j][1] = src_ptr[j][1];tar_ptr[j][0] = src_ptr[j][2];}}
}

結論：

使用cv::Mat::at：速度最慢
使用cv::MatIterator_ 速度中等
使用cv::Mat.data
使用cv::Mat.ptr: 速度最快

Tips.圖像 BGR2RGB + norm + hwc2chw 最優方式

void preprocess_cv_pointer(cv::Mat src, float* tar, float* mean, float* std){int area = src.rows * src.cols;int offset_ch0 = area * 0;int offset_ch1 = area * 1;int offset_ch2 = area * 2;for (int i = 0; i < src.rows; i ++) {cv::Vec3b* src_ptr = src.ptr<cv::Vec3b>(i);for (int j = 0; j < src.cols; j ++) {tar[offset_ch2++] = (src_ptr[j][0] / 255.0f - mean[0]) / std[0];tar[offset_ch1++] = (src_ptr[j][1] / 255.0f - mean[1]) / std[1];tar[offset_ch0++] = (src_ptr[j][2] / 255.0f - mean[2]) / std[2];}}
}

二. 通用模型推理框架設計

2.1 worker類
根據模型的種類(分類、檢測、分割)在構造函數中初始化一個模型，另外包含一個推理函數即可。

Worker::Worker(string onnxPath, logger::Level level, model::Params params) {m_logger = logger::create_logger(level);// 這里根據task_type選擇創建的trt_model的子類，今后會針對detection, segmentation擴充if (params.task == model::task_type::CLASSIFICATION) m_classifier = model::classifier::make_classifier(onnxPath, level, params);}void Worker::inference(string imagePath) {if (m_classifier != nullptr) {m_classifier->load_image(imagePath);m_classifier->inference();}
}

2.2 model基類

成員變量包含模型參數集合，各類路徑字符串，logger, timer等。

Model::Model(string onnx_path, logger::Level level, Params params) {m_onnxPath      = onnx_path;m_enginePath    = getEnginePath(onnx_path);m_workspaceSize = WORKSPACESIZE;m_logger        = make_shared<logger::Logger>(level);m_timer         = make_shared<timer::Timer>();m_params        = new Params(params);
}

成員函數有初始化模型，加載數據，推理，構建/加載/保存引擎，幾個純虛函數（setup, 前/后處理cpu版本，前/后處理gpu版本）。
純虛函數需要子類去具體實現。

setup負責分配host/device的memory, bindings, 以及創建推理所需要的上下文。由于不同task的input/output的tensor不一樣，所以這里的setup需要在子類實現。

2.3 classifier 分類器子類
主要是針對model基類中的幾個純虛函數，進行具體實現。
Eg.

void Classifier::setup(void const* data, size_t size) {m_runtime     = shared_ptr<IRuntime>(createInferRuntime(*m_logger), destroy_trt_ptr<IRuntime>);m_engine      = shared_ptr<ICudaEngine>(m_runtime->deserializeCudaEngine(data, size), destroy_trt_ptr<ICudaEngine>);m_context     = shared_ptr<IExecutionContext>(m_engine->createExecutionContext(), destroy_trt_ptr<IExecutionContext>);m_inputDims   = m_context->getBindingDimensions(0);m_outputDims  = m_context->getBindingDimensions(1);// 考慮到大多數classification model都是1 input, 1 output, 這邊這么寫。如果像BEVFusion這種有多輸出的需要修改CUDA_CHECK(cudaStreamCreate(&m_stream));m_inputSize     = m_params->img.h * m_params->img.w * m_params->img.c * sizeof(float);m_outputSize    = m_params->num_cls * sizeof(float);m_imgArea       = m_params->img.h * m_params->img.w;// 這里對host和device上的memory一起分配空間CUDA_CHECK(cudaMallocHost(&m_inputMemory[0], m_inputSize));CUDA_CHECK(cudaMallocHost(&m_outputMemory[0], m_outputSize));CUDA_CHECK(cudaMalloc(&m_inputMemory[1], m_inputSize));CUDA_CHECK(cudaMalloc(&m_outputMemory[1], m_outputSize));// //創建m_bindings，之后再尋址就直接從這里找m_bindings[0] = m_inputMemory[1];m_bindings[1] = m_outputMemory[1];
}

2.4 logger類
日志類，通過設置等級進行打印消息，相比于cout更清爽。

2.5 timer類
記錄cpu和gpu的開始/結束時間，計算相應的時間差。

    m_timer->start_cpu();/* 處理程序 */m_timer->stop_cpu();m_timer->duration_cpu<timer::Timer::ms>("preprocess(CPU)");

2.6 process命名空間
process 命名空間下，定義了preprocess_resize_cpu， preprocess_resize_gpu等一些函數。

三. int8量化

3.1 創建calibrator類的時候需要繼承nvinfer1里的calibrator，NVIDIA官方提供了以下五種：

nvinfer1::IInt8EntropyCalibrator2 是tensorRT 7.0引入的接口，實現基于熵的INT8量化校準器。(默認情況下優先使用它)
nvinfer1::IInt8MinMaxCalibrator
nvinfer1::IInt8EntropyCalibrator 是tensorRT 7.0之前的接口，實現基于熵的INT8量化校準器。(目前已被棄用)
nvinfer1::IInt8LegacyCalibrator（percentile）
nvinfer1::IInt8Calibrator（被棄用）

3.2 在calibrator類中需要實現的函數只需要四個：

int         getBatchSize() const noexcept override {return m_batchSize;};
bool        getBatch(void* bindings[], const char* names[], int nbBindings) noexcept override;
const void* readCalibrationCache(std::size_t &length) noexcept override;
void        writeCalibrationCache (const void* ptr, std::size_t legth) noexcept override;

getBatchSize: 獲取calibration的batch大小，需要注意的是不同的batch size會有不同的校準效果。一般而言，越大越好。
getBatch獲取的圖像必須要和真正推理時所采用的預處理保持一直。不然dynamic range會不準
readCalibrationCache: 用來讀取calibration table,也就是之前做calibration統計得到的各個layer輸出tensor的dynamic range。實現這個函數可以讓我們避免每次做int8推理的時候都需要做一次calibration
writeCalibrationCache: 將統計得到的dynamic range寫入到calibration table中去

3.3 實現完了基本的calibrator之后，在build引擎的時候通過config指定calibrator就可以了。

shared_ptr<Int8EntropyCalibrator> calibrator(new Int8EntropyCalibrator(64, "calibration/calibration_list_imagenet.txt", "calibration/calibration_table.txt",3 * 224 * 224, 224, 224));
config->setInt8Calibrator(calibrator.get());

這里面的calibration_list_imagenet.txt使用的是ImageNet2012的test數據集的一部分。可以根據各自的情況去更改，注意batch_size 64需要改成能被calibration dataset的整除的數，否則core dump。

需要注意的是，如果calibrator改變了，或者模型架構改變了，需要刪除掉calibration_table.txt來重新計算dynamic range。否則會報錯

Tips.
實操生成過程中遇到的core dump情況，報出一個cudnn庫加載版本不正確的警告。通過ldd ./bin/trt-infer 定位到libnvinfer.so.8 => /home/xx/opt/TensorRT-8.5.3.1/lib/libnvinfer.so.8 ，TensorRT版本與Makefile配置文件中指定的版本不一致。
查看服務器動態庫路徑，先刪除動態庫其中被指定的TensorRT動態庫路徑，再指定自己的動態庫路徑

echo $LD_LIBRARY_PATH
export LD_LIBRARY_PATH=""  # 先清空
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64:/home/xxxpersonal/others/TensorRT-8.4.0.6/lib

四. Timing Cache

主要作用：它可以加快 engine 的創建過程，為了優化和加速內核選擇過程。

如何使用 Timing Cache：

創建和保存 Timing Cache：在第一次構建 engine 時，TensorRT 會創建一個 timing cache。你可以將這個 timing cache 保存到文件中，以便未來復用。
加載 Timing Cache：在構建新的 engine 時，可以加載已經保存的 timing cache，從而避免重新進行時間消耗的內核調優過程。