FFmpeg合成mp4

本章主要介紹如何使用FFmpeg來將一個音頻文件和一個視頻文件合成一個MP4文件，以及在這個過程中我們如何對編碼過程進行封裝以及sample_rate 重采樣的過程（由于提供的音頻文件的編碼類型為S16，所以我們需要轉化為MP4支持的FLTP浮點類型）。

Muxer

首先我們來介紹如何封裝MP4的封裝器，就是我們將視頻流和音頻流輸入封裝器，封裝器輸出MP4文件。下面是封裝器的頭文件，里面有一些封裝器必要的成員函數。

#ifndef MUXER_H #define MUXER_H #include <iostream> 
// 在C++文件中中導入C庫需要使用extern關鍵字 
extern "C" { #include "libavcodec/avcodec.h" #include "libavformat/avformat.h" 
} class Muxer { public: Muxer(); ~Muxer(); // 初始化 int Init(const char* url); // 釋放資源 void DeInit(); // 將一條視頻/音頻流添加到封裝器 int AddStream(AVCodecContext* codec_ctx); // 將頭發送到封裝器中 int SendHeader(); // 將數據幀發送到封裝器中 int SendPacket(AVPacket* packet); // 將尾發送到封裝器中 int SendTrailer(); // 打開輸入源url int Open(); private: // format上下文 AVFormatContext* fmt_ctx_ = NULL; // 輸入源url，這里可能是url也可以是一個文件路徑 std::string url_ = ""; // 視頻流復用器上下文 AVCodecContext* vid_codec_ctx_ = NULL; AVCodecContext* aud_codec_ctx_ = NULL; // 視頻流 AVStream* vid_st_ = NULL; AVStream* aud_st_ = NULL; // 有沒有對應的流 int video_index_ = -1; int audio_index_ = -1; 
}; 
#endif // MUXER_H

接下來是封裝器的具體時間，我們暫時只實現最基礎的功能：

int Muxer::Init(const char *url) { int ret = avformat_alloc_output_context2(&fmt_ctx_, NULL, NULL,url); if(ret < 0) { char errbuf[1024] = {0}; av_strerror(ret, errbuf, sizeof(errbuf) - 1);printf("avformat_alloc_output_context2 failed:%s\n", errbuf); return -1; } url_ = url; return 0; 
}

由于這是第一個具體的函數實現，所以我就放上了獲取錯誤的函數，后面我就不說了。avformat_alloc_output_context2用來初始化輸出格式上下文。最后是將傳入的url參數賦值給類成員。

void Muxer::DeInit() { if(fmt_ctx_) { avformat_close_input(&fmt_ctx_); } url_ = ""; aud_codec_ctx_ = NULL; aud_stream_ = NULL; audio_index_ = -1; vid_codec_ctx_ = NULL; vid_stream_ = NULL; video_index_ = -1; 
}

這里主要的功能就是關閉輸出格式上下文，然后將其他的類成員設置為初始狀態。

int Muxer::AddStream(AVCodecContext *codec_ctx) { if(!fmt_ctx_) { printf("fmt ctx is NULL\n"); return -1; } if(!codec_ctx) { printf("codec ctx is NULL\n"); return -1; } AVStream *st = avformat_new_stream(fmt_ctx_, NULL); if(!st) { printf("avformat_new_stream failed\n"); return -1; } // st->codecpar->codec_tag = 0; // 從編碼器上下文復制 avcodec_parameters_from_context(st->codecpar, codec_ctx);av_dump_format(fmt_ctx_, 0, url_.c_str(), 1); // 判斷當前的是視頻流還是音頻流 if(codec_ctx->codec_type == AVMEDIA_TYPE_AUDIO) { aud_codec_ctx_ = codec_ctx; aud_stream_ = st; audio_index_ = st->index; } else if(codec_ctx->codec_type == AVMEDIA_TYPE_VIDEO) { vid_codec_ctx_ = codec_ctx; vid_stream_ = st; video_index_ = st->index; } return 0; 
}

avformat_new_stream的第二個參數通常是NULL，自動分配流。但是如果是已知編碼器，可以直接傳入AVCodec*。
在判斷當前傳入的流的種類后，初始化對應的類成員。

int Muxer::SendHeader()
{if(!fmt_ctx_) {printf("fmt ctx is NULL\n");return -1;}/** 這里其實可以選擇封裝參數（如mp4的faststart）* AVDictionary* option = NULL;* av_dict_set(&options, "movflags", "faststart", 0);*/int ret = avformat_write_header(fmt_ctx_, NULL);if (ret != 0) {char errbuf[1024] = {0};av_strerror(ret, errbuf, sizeof(errbuf) - 1);printf("avformat_write_header failed:%s\n", errbuf);return -1;}return 0;
}

需要注意的是這個函數必須在所有流添加完成后調用，因為avformat_write_header必須在所有流都添加完畢后調用.
如果后續還要修改參數，需要在調用前完成。

int Muxer::SendPacket(AVPacket *packet)
{int stream_index = packet->stream_index;if (!packet || packet->size <=0 || packet->data) {printf("packet is null\n");if (packet) {av_packet_free(&packet);}return -1;}AVRational src_time_base; // 編碼后的包AVRational dst_time_base; // mp4輸出文件對應流的time_baseif (vid_st_ && vid_codec_ctx_ && stream_index == video_index_) {src_time_base = vid_codec_ctx_->time_base;dst_time_base = vid_st_->time_base;}else if (aud_st_ && aud_codec_ctx_ && stream_index == audio_index_) {src_time_base = aud_codec_ctx_->time_base;dst_time_base = aud_st_->time_base;}packet->pts = av_rescale_q(packet->pts, src_time_base, dst_time_base);packet->dts = av_rescale_q(packet->dts, src_time_base, dst_time_base);packet->duration = av_rescale_q(packet->duration, src_time_base, dst_time_base);int ret = 0;ret = av_interleaved_write_frame(fmt_ctx_, packet);// ret = av_write_frame(fmt_ctx_, packet);av_packet_free(&packet);if (ret == 0) {return 0;}else {char errbuf[1024] = {0};av_strerror(ret, errbuf, sizeof(errbuf) - 1);printf("avformat_write_header failed:%s\n", errbuf);return -1;}
}

av_interleaved_write_frame和av_write_frame的功能其實差不多，不過前者會有一些緩存，而后者是直接寫入到文件。前者的緩存目的是根據pts對幀進行排序。
這里比較重要的就是時間基的轉化問題。為什么要進行時間基轉化呢：不同的音視頻流都有自己的時間基，也就是fps，但是當我們合成的時候，就要統一這些時間基，把他們統一到新編碼格式上。

int Muxer::SendTrailer()
{if(!fmt_ctx_) {printf("fmt ctx is NULL\n");return -1;}// 寫入尾部信息int ret = av_write_trailer(fmt_ctx_);if (ret != 0) {char errbuf[1024] = {0};av_strerror(ret, errbuf, sizeof(errbuf) - 1);printf("av_write_trailer failed:%s\n", errbuf);return -1;}return 0;
}

這里的主要函數是av_write_trailer，它做了以下幾件事：
- 寫入文件尾部信息（如MP4，MKV中的索引表）；
- 刷新內部緩沖區；
- 調用每個AVStream的codec相關清理代碼；
- 確保生成的文件可被播放器正確讀取；
- 釋放部分資源（這里還需要手動關閉avio_close()和avformat_free_context()）

AudioEncoder

接下來是音頻編碼器，用來編碼輸入的音頻流數據。

#ifndef AUDIOENCODER_H
#define AUDIOENCODER_Hextern "C"
{
#include "libavformat/avformat.h"
#include "libavcodec/avcodec.h"
}
class AudioEncoder
{
public:AudioEncoder();~AudioEncoder();// 這里使用的AAC音頻流，如果要適配更多的流，可以自己添加int InitAAC(int channels, int sample_rate, int bit_rate);
//    int InitMP3(/*int channels, int sample_rate, int bit_rate*/);void DeInit();  // 釋放資源AVPacket *Encode(AVFrame *farme, int stream_index, int64_t pts, int64_t time_base);int GetFrameSize(); // 獲取一幀數據 每個通道需要多少個采樣點int GetSampleFormat();  // 編碼器需要的采樣格式AVCodecContext *GetCodecContext();int GetChannels();int GetSampleRate();
private:// 默認值int channels_ = 2; // 雙聲道int sample_rate_ = 44100; // 采樣率int bit_rate_ = 128*1024; // 比特率int64_t pts_ = 0; // 顯示時間：顯示的時間  dts是解碼時間：開始解碼當前幀的時間AVCodecContext * codec_ctx_ = NULL;
};#endif // AUDIOENCODER_H

這邊的音頻編碼器只封裝了AAC的音頻流，并且設置了一些原始數據，后面可以再拓展。

int AudioEncoder::InitAAC(int channels, int sample_rate, int bit_rate)
{// 初始化當前參數channels_ = channels;sample_rate_ = sample_rate;bit_rate_ = bit_rate;// 根據ID尋找編碼器AVCodec *codec = avcodec_find_encoder(AV_CODEC_ID_AAC);if(!codec) {printf("avcodec_find_encoder AV_CODEC_ID_AAC failed\n");return -1;}// 為編碼器分配上下文codec_ctx_ = avcodec_alloc_context3(codec);if(!codec_ctx_) {printf("avcodec_alloc_context3 AV_CODEC_ID_AAC failed\n");return -1;}// 配置編碼器上下文參數codec_ctx_->flags |= AV_CODEC_FLAG_GLOBAL_HEADER; // 取消AAC的adts頭codec_ctx_->sample_rate = sample_rate;codec_ctx_->bit_rate = bit_rate;// 這是新的寫法，這個函數會配置nb_channels和channel_layoutav_channel_layout_default(&codec_ctx_->ch_layout, channels);// 編碼采樣格式codec_ctx_->sample_fmt = AV_SAMPLE_FMT_FLTP; // 平面浮點數int ret = avcodec_open2(codec_ctx_, NULL, NULL);if (ret != 0) {char errbuf[1024] = {0};av_strerror(ret, errbuf, sizeof(errbuf) - 1);printf("avcodec_open2 failed:%s\n", errbuf);return -1;}printf("InitAAC success\n");return 0;

這里需要注意的是av_channel_layout_default，這是新的寫法，之前需要單獨分來對channel相關變量進行賦值。

// 這就是編碼函數了
AVPacket *AudioEncoder::Encode(AVFrame *frame, int stream_index, int64_t pts, int64_t time_base)
{if (!codec_ctx_) {printf("codec_ctx_ null\n");return NULL;}// 時間基轉換pts = av_rescale_q(pts, AVRational{1, (int)time_base}, codec_ctx_->time_base);if (frame) {frame->pts = pts;}int ret = avcodec_send_frame(codec_ctx_, frame);if (ret != 0) {char errbuf[1024] = {0};av_strerror(ret, errbuf, sizeof (errbuf) - 1);printf("avcodec_send_frame failed:%s\n", errbuf);return NULL;}AVPacket*  packet = av_packet_alloc();ret = avcodec_receive_packet(codec_ctx_, packet);if (ret != 0) {char errbuf[1024] = {0};av_strerror(ret, errbuf, sizeof (errbuf) - 1);printf("avcodec_send_frame failed:%s\n", errbuf);return NULL;}packet->stream_index = stream_index;return packet;
}

設置好編碼器參數后就是編碼了，將數據幀一個一個編碼為packet，最后記得設置一下index返回
每一條音頻和視頻都是分開的，有自己的index（編號）。

Main

主函數的內容還是比較多的，由于涉及到一些常規的操作，比如打開文件等，這里就不都解釋了，我們主要看一些比較重要的需要記錄的地方。

首先來看一些宏定義，他們定義了我們轉化視頻的一些參數。

// 視頻的寬和高
#define YUV_WIDTH 720
#define YUV_HEIGHT 576
#define YUV_FPS 25
// 比特率
#define VIDEO_BIT_RATE 512*1024
// 采樣率
#define PCM_SAMPLE_RATE 44100
#define PCM_CHANNELS 2#define AUDIO_BIT_RATE 128*1024// 基準時間 本例子中的時間是5s 也就是下面的時間*5
#define AUDIO_TIME_BASE 1000000
#define VIDEO_TIME_BASE 1000000

接著這里有一個計算YUV420P編碼格式幀大小的地方。

  int y_frame_size = yuv_width * yuv_height;int u_frame_size = yuv_width * yuv_height / 4;int v_frame_size = yuv_width * yuv_height / 4;int yuv_frame_size = y_frame_size * u_frame_size * v_frame_size;
/*
* 可以看到這里YUV三個方向的size計算方式不同
# 這是因為在YUV420中，UV方向的比特率都是Y方向的1/4
*/

最后看一下主循環

while(1) {if (audio_finish && video_finish)break;printf("apts:%0.0lf, vpts:%0.0lf\n", audio_pts/1000, video_pts/1000);if ((video_finish != 1 && audio_pts > video_pts)|| (video_finish != 1 && audio_finish ==1)) {read_len = fread(yuv_frame_buf, 1, yuv_frame_size, in_yuv_fd);// 文件中的視頻幀內容已經消耗完if (read_len < yuv_frame_size) {video_finish = 1;printf("fread yuv_frame_buf finish\n");}if (video_finish != 1) {packet = video_encoder.Encode(yuv_frame_buf, yuv_frame_size, video_index,video_pts, video_time_base);}else {// 這里有一個沖刷編碼器的過程packet = video_encoder.Encode(NULL, 0, video_index,video_pts, video_time_base);}// 疊加ptsvideo_pts += video_frame_duration; // 疊加ptsif (packet) {mp4_muxer.SendPacket(packet);}}else if (audio_finish != 1) {read_len = fread(pcm_frame_buf, 1, pcm_frame_size, in_pcm_fd);if (read_len < pcm_frame_size) {audio_finish = 1;printf("fread pcm_frame_buf finish\n");}if (audio_finish != 1) {AVFrame* fltp_frame = AllocFltpPcmFrame(pcm_channels, audio_encoder.GetFrameSize());ret = audio_resampler.ResampleFromS16ToFLTP(pcm_frame_buf, fltp_frame);packet = audio_encoder.Encode(fltp_frame, audio_index,audio_pts, audio_time_base);FreePcmFrame(fltp_frame);}else {packet = audio_encoder.Encode(NULL, audio_index,audio_pts, audio_time_base);}audio_pts += audio_frame_duration;if (packet) {mp4_muxer.SendPacket(packet);}}}

下面是主函數的本體：

#include <iostream>
#include "audioencoder.h"
#include "videoencoder.h"
#include "muxer.h"
#include "audioresampler.h"using namespace std;#define YUV_WIDTH 720
#define YUV_HEIGHT 576
#define YUV_FPS 25#define VIDEO_BIT_RATE 512*1024#define PCM_SAMPLE_RATE 44100
#define PCM_CHANNELS 2#define AUDIO_BIT_RATE 128*1024// 基準時間 本例子中的時間是5s 也就是下面的時間*5
#define AUDIO_TIME_BASE 1000000
#define VIDEO_TIME_BASE 1000000int main(int argc, char* argv[])
{if (argc != 4) {printf("usage -> exe in.yuv in.pcm out.mp4");return -1;}const char* in_yuv_name = argv[1];const char* in_pcm_name = argv[2];const char* out_mp4_name = argv[3];FILE* in_yuv_fd = NULL;FILE* in_pcm_fd = NULL;in_yuv_fd = fopen(in_yuv_name, "rb");if (!in_yuv_fd) {printf("Failed to open %s file\n", in_yuv_fd);return -1;}in_pcm_fd = fopen(in_pcm_name, "rb");if (!in_pcm_fd) {printf("Failed to open %s file\n", in_pcm_fd);return -1;}int ret = 0;// 初始化編碼器，包括視頻，音頻編碼器int yuv_width = YUV_WIDTH;int yuv_height = YUV_HEIGHT;int yuv_fps = YUV_FPS;int video_bit_rate = VIDEO_BIT_RATE;VideoEncoder video_encoder;ret = video_encoder.InitH264(yuv_width, yuv_height, yuv_fps, video_bit_rate);if (ret < 0) {printf("video_encoder.InitH264 failed\n");return -1;}int y_frame_size = yuv_width * yuv_height;int u_frame_size = yuv_width * yuv_height / 4;int v_frame_size = yuv_width * yuv_height / 4;int yuv_frame_size = y_frame_size * u_frame_size * v_frame_size;uint8_t* yuv_frame_buf = (uint8_t*)malloc(yuv_frame_size);if (!yuv_frame_buf) {printf("malloc(yuv_frame_size\n");return -1;}int pcm_channels = PCM_CHANNELS;int pcm_sample_rate = PCM_SAMPLE_RATE;int pcm_sample_format = AV_SAMPLE_FMT_FLTP;int audio_bit_rate = AUDIO_BIT_RATE;int pcm_frame_size = av_get_bytes_per_sample((AVSampleFormat)pcm_sample_format);AudioEncoder audio_encoder;ret = audio_encoder.InitAAC(pcm_channels, pcm_sample_rate, audio_bit_rate);if (ret < 0) {printf("audio_encoder.InitAAC failed\n");return -1;}uint8_t* pcm_frame_buf = (uint8_t*)malloc(pcm_frame_size);// 這里需要進行一下重采樣 將 S16 轉化為 FLTPAudioResampler audio_resampler;ret = audio_resampler.InitFromS16ToFLTP(pcm_channels, pcm_sample_rate,audio_encoder.GetChannels(), audio_encoder.GetSampleFormat());if (ret < 0) {printf("audio_resampler.InitFromS16ToFLTP failed\n");return -1;}Muxer mp4_muxer;ret = mp4_muxer.Init(out_mp4_name);if (ret < 0) {printf("mp4_muxer.Init failed\n");return -1;}// 將流添加到封裝器中ret = mp4_muxer.AddStream(video_encoder.GetCodecContext());if (ret < 0) {printf("mp4_muxer.AddStream video failed\n");return -1;}ret = mp4_muxer.AddStream(audio_encoder.GetCodecContext());if (ret < 0) {printf("mp4_muxer.AddStream video failed\n");return -1;}ret = mp4_muxer.Open();if (ret < 0) {return -1;}ret = mp4_muxer.SendHeader();if (ret < 0) {return -1;}int64_t audio_time_base = AUDIO_TIME_BASE;int64_t video_time_base = VIDEO_TIME_BASE;double audio_pts = 0;double video_pts = 0;double audio_frame_duration = 1.0 * audio_encoder.GetFrameSize()/pcm_sample_rate*audio_time_base;double video_frame_duration = 1.0/yuv_fps * video_time_base;int audio_finish = 0;int video_finish = 0;size_t read_len = 0;AVPacket* packet = NULL;int audio_index = mp4_muxer.GetAudioStreamIndex();int video_index = mp4_muxer.GetVideoStreamIndex();while(1) {if (audio_finish && video_finish)break;printf("apts:%0.0lf, vpts:%0.0lf\n", audio_pts/1000, video_pts/1000);if ((video_finish != 1 && audio_pts > video_pts)|| (video_finish != 1 && audio_finish ==1)) {read_len = fread(yuv_frame_buf, 1, yuv_frame_size, in_yuv_fd);if (read_len < yuv_frame_size) {video_finish = 1;printf("fread yuv_frame_buf finish\n");}if (video_finish != 1) {packet = video_encoder.Encode(yuv_frame_buf, yuv_frame_size, video_index,video_pts, video_time_base);}else {packet = video_encoder.Encode(NULL, 0, video_index,video_pts, video_time_base);}video_pts += video_frame_duration; // 疊加ptsif (packet) {mp4_muxer.SendPacket(packet);}}else if (audio_finish != 1) {read_len = fread(pcm_frame_buf, 1, pcm_frame_size, in_pcm_fd);if (read_len < pcm_frame_size) {audio_finish = 1;printf("fread pcm_frame_buf finish\n");}if (audio_finish != 1) {AVFrame* fltp_frame = AllocFltpPcmFrame(pcm_channels, audio_encoder.GetFrameSize());ret = audio_resampler.ResampleFromS16ToFLTP(pcm_frame_buf, fltp_frame);packet = audio_encoder.Encode(fltp_frame, audio_index,audio_pts, audio_time_base);FreePcmFrame(fltp_frame);}else {packet = audio_encoder.Encode(NULL, audio_index,audio_pts, audio_time_base);}audio_pts += audio_frame_duration;if (packet) {mp4_muxer.SendPacket(packet);}}}ret = mp4_muxer.SendTrailer();if (ret < 0) {printf("mp4_muxer.SendTrailer failed\n");}printf("write mp4 finish\n");if (yuv_frame_buf)free(yuv_frame_buf);if (pcm_frame_buf)free(pcm_frame_buf);if (in_yuv_fd)fclose(in_yuv_fd);if (in_pcm_fd)fclose(in_pcm_fd);return 0;
}

參考資料：https://github.com/0voice