SOC-ESP32S3部分：33-聲學前端模型ESP-SR

飛書文檔https://x509p6c8to.feishu.cn/wiki/YnbmwtqI5iBwE3kHA7AcZ3yTnLf

ESP-SR 是樂鑫官方開發的一個音頻組件，支持以下模塊：

聲學前端算法 AFE
喚醒詞檢測 WakeNet
命令詞識別 MultiNet
語音合成（目前只支持中文）

組件地址：https://components.espressif.com/components/espressif/esp-sr/versions/2.0.2

聲學前端 (Audio Front-End, AFE) 算法

由于語音交互類設備需要保證能夠采集干凈的音頻，所以在讀取麥克風的音頻后，需要進行一系列的算法處理，例如AEC、NS、BSS、MISO、VAD、AGC等

名稱	簡介
AEC (Acoustic Echo Cancellation)	回聲消除算法，最多支持雙麥處理，能夠有效的去除 mic 輸入信號中的自身播放聲音，從而可以在自身播放音樂的情況下很好的完成語音識別。
NS (Noise Suppression)	噪聲抑制算法，支持單通道處理，能夠對單通道音頻中的非人聲噪聲進行抑制，尤其針對穩態噪聲，具有很好的抑制效果。
BSS (Blind Source Separation)	盲信號分離算法，支持雙通道處理，能夠很好的將目標聲源和其余干擾音進行盲源分離，從而提取出有用音頻信號，保證了后級語音的質量。
MISO (Multi Input Single Output)	多輸入單輸出算法，支持雙通道輸入，單通道輸出。用于在雙麥場景，沒有喚醒使能的情況下，選擇信噪比高的一路音頻輸出。
VAD (Voice Activity Detection)	語音活動檢測算法，支持實時輸出當前幀的語音活動狀態。
AGC (Automatic Gain Control)	自動增益控制算法，可以動態調整輸出音頻的幅值，當弱信號輸入時，放大輸出幅度；當輸入信號達到一定強度時，壓縮輸出幅度。

例如語音通過使用的算法

WakeNet 喚醒詞檢測

WakeNet 是一個基于神經網絡，為低功耗嵌入式 MCU 設計的喚醒詞模型，目前支持 5 個以內的喚醒詞識別，對于需要支持喚醒詞功能的應用，我們可以把經過AFE算法處理的音頻輸入給WakeNet模型，得到喚醒狀態，模型支持的音頻格式如下：輸入的音頻文件采樣率為 16 KHz，單聲道，編碼方式為 signed 16-bit。。

例如語音識別使用的算法：

MultiNet 是為了在 ESP32-S3 系列上離線實現多命令詞識別而設計的輕量化模型，目前支持 200 個以內的自定義命令詞識別。

支持中文和英文命令詞識別
支持用戶自定義命令詞
支持運行過程中增加/刪除/修改命令詞語
最多支持 200 個命令詞
支持單次識別和連續識別兩種模式
輕量化，低資源消耗
低延時，延時 500 ms內
支持在線中英文模型切換
模型單獨分區，支持用戶應用 OTA

樂鑫 TTS 語音合成模型是一個為嵌入式系統設計的輕量化語音合成系統，具有如下主要特性：

目前 僅支持中文
輸入文本采用 UTF-8 編碼
輸出格式采用流輸出，可減少延時
多音詞發音自動識別
可調節合成語速
數字播報優化
自定義聲音集（敬請期待）

如何使用esp-sr組件的相關功能呢？官方也給我們提供了示例工程ESP-Skainet。

ESP-Skainet 是樂鑫推出的智能語音助手應用，內置了很多例程，例如喚醒詞識別、命令詞識別、中文文字轉語音，USBmic等，詳見：https://github.com/espressif/esp-skainet/blob/master/README_cn.md

喚醒功能實現

參考

https://github.com/espressif/esp-skainet/tree/master/examples/wake_word_detection

新建工程，添加sr組件

idf.py add-dependency "espressif/esp-sr^2.0.2"
idf.py add-dependency "espressif/es8311^1.0.0"

修改工程配置Flash大小

因為加入sr聲學模型后，需要更大的存儲空間

添加自定義分區表

參考分區表章節22-分區表

# Name,?? Type, SubType, Offset,? Size, Flags
# Note: if you have increased the bootloader size, make sure to update the offsets to avoid overlap
nvs,????? data, nvs,???? ,??????? 0x6000,
phy_init, data, phy,???? ,??????? 0x1000,
factory,? app,? factory, ,??????? 1M,
model,? data, spiffs,??? ,??????? 5168K,

開啟PSRAM

選擇模型

ESP-SR允許您通過 menuconfig 界面選擇所需的模型。要配置模型：
運行
idf.py set-target esp32s3
idf.py menuconfig
導航到 ESP Speech Recognition
可支持配置以下選項：
- NS噪聲抑制模型
- VAD語音活動檢測模型
- WakeNet喚醒詞識別模型
- MultiNet命令詞識別模型模型存儲位置
(Top) → ESP Speech Recognition → model data path
(X) Read model data from flash
( ) Read model data from SD CardAFE回聲消除模型
→ ESP Speech Recognition → Select voice activity detection
(X) voice activity detection (WebRTC)
( ) voice activity detection (vadnet1 medium)??NS噪聲抑制模型
→ ESP Speech Recognition → Select noise suppression model
(X) noise suppression (WebRTC)
( ) Deep noise suppression v2 (nsnet2)VAD語音活動檢測模型
-> ESP Speech Recognition ->Select voice activity detection
(X) voice activity detection (WebRTC)
( ) voice activity detection (vadnet1 medium)喚醒詞配置：
→ ESP Speech Recognition → Load Multiple Wake Words
[ ] Hi,樂鑫 (wn9_hilexin)
[ ] 小愛同學 (wn9_xiaoaitongxue)
[*] 你好小智 (wn9_nihaoxiaozhi_tts)
可選擇單個，最多可選擇兩個中文命令詞識別模型
→ ESP Speech Recognition → Chinese Speech Commands Model
(X) None
( ) chinese recognition (mn5q8_cn)
( ) general chinese recognition (mn6_cn)
( ) chinese recognition for air conditioner controller (mn6_cn_ac)
( ) general chinese recognition (mn7_cn)
( ) chinese recognition for air conditioner controller (mn7_cn_ac)英文命令詞識別模型
→ ESP Speech Recognition → English Speech Commands Model
(X) None
( ) english recognition (mn5q8_en)
( ) general english recognition (mn6_en)
( ) general english recognition (mn7_en)

為了使得前端模型運行效果更佳，建議參考例程進行配置，ESP32S3其它配置如下

CONFIG_IDF_TARGET="esp32s3"
CONFIG_ESPTOOLPY_FLASHMODE_QIO=y? 4線spi
CONFIG_ESPTOOLPY_FLASHSIZE_16MB=y 16M flash
CONFIG_PARTITION_TABLE_CUSTOM=y? 自定義分區表
CONFIG_SR_VADN_VADNET1_MEDIUM=y? vad檢測模型
CONFIG_SPIRAM=y????????????????? 開啟spiram
CONFIG_SPIRAM_MODE_OCT=y???????? 8線sprram
CONFIG_SPIRAM_SPEED_80M=y??????? 80M速率
CONFIG_ESP_DEFAULT_CPU_FREQ_MHZ_240=y 240M CPU主頻
CONFIG_ESP32S3_INSTRUCTION_CACHE_32KB=y 緩存配置
CONFIG_ESP32S3_DATA_CACHE_64KB=y
CONFIG_ESP32S3_DATA_CACHE_LINE_64B=y

修改demo/main/CMakeLists.txt

idf_component_register(SRCS "main.c""driver_es8311.c"INCLUDE_DIRS ".")

添加es8311驅動

demo/main/driver_es8311.h

#ifndef _DERIVER_ES8311_H_
#define _DERIVER_ES8311_H_int es8311_get_feed_channel();esp_err_t es8311_get_feed_data(bool is_get_raw_channel, int16_t *buffer, int buffer_len);void init_driver_es8311();#endif

demo/main/driver_es8311.c

#include <stdio.h>
#include <string.h>
#include "sdkconfig.h"
#include "freertos/FreeRTOS.h"
#include "freertos/task.h"
#include "driver/i2s_std.h"
#include "esp_system.h"
#include "esp_check.h"
#include "es8311.h"/* Example configurations */
#define EXAMPLE_SAMPLE_RATE (16000)??????????????????????????????????????? // 音頻采樣率，采樣率被設置為16000 Hz，即每秒采樣16000次。
#define EXAMPLE_DATA_BIT_WIDTH I2S_DATA_BIT_WIDTH_16BIT??????????????????? // 音頻采樣位寬 16bit
#define EXAMPLE_SLOT_MODE_MONO I2S_SLOT_MODE_STEREO?????????? ?????????????// 音頻采樣聲道 雙聲道#define EXAMPLE_MCLK_MULTIPLE (384)??????????????????????????????????????? // 主時鐘頻率是采樣率的倍數，用于驅動I2S接口。MCLK的倍數被設置為384。這意味著主時鐘頻率將是采樣率的384倍。如果數據寬度不是24位，256倍數可能已經足夠。
#define EXAMPLE_MCLK_FREQ_HZ (EXAMPLE_SAMPLE_RATE * EXAMPLE_MCLK_MULTIPLE) // 主時鐘的頻率
#define EXAMPLE_VOICE_VOLUME 90??????????????????????????????????????????? // 音量，控制輸出音量的大小。
#define EXAMPLE_MIC_GAIN ES8311_MIC_GAIN_0DB?????????????????????????????? // 麥克風增益
#define EXAMPLE_RECV_BUF_SIZE?? (2400)??????????????????????? ?????????????// MIC接收緩沖區大小/* I2C port and GPIOs */
#define I2C_NUM (0)
#define I2C_SCL_IO (GPIO_NUM_5)
#define I2C_SDA_IO (GPIO_NUM_7)
/* I2S port and GPIOs */
#define I2S_NUM (0)
#define I2S_MCK_IO (GPIO_NUM_6)
#define I2S_BCK_IO (GPIO_NUM_14)
#define I2S_WS_IO (GPIO_NUM_12)
#define I2S_DO_IO (GPIO_NUM_11)
#define I2S_DI_IO (GPIO_NUM_13)
#define SPKER_CTRL_PIN??? GPIO_NUM_10
#define SPKER_CTRL_PIN_SEL? (1ULL<<SPKER_CTRL_PIN)static const char *TAG = "i2s_es8311";
static i2s_chan_handle_t tx_handle = NULL;
static i2s_chan_handle_t rx_handle = NULL;static esp_err_t i2s_driver_init(void)
{// 指定I2S編號和主模式i2s_chan_config_t chan_cfg = I2S_CHANNEL_DEFAULT_CONFIG(I2S_NUM, I2S_ROLE_MASTER);// 啟用自動清除DMA緩沖區中的遺留數據chan_cfg.auto_clear = true;// 創建一個新的I2S通道，并將返回的發送和接收通道句柄分別存儲在tx_handle和rx_handle中ESP_ERROR_CHECK(i2s_new_channel(&chan_cfg, &tx_handle, &rx_handle));// 配置標準I2S模式i2s_std_config_t std_cfg = {// 設置時鐘配置，使用默認的標準I2S時鐘配置，并根據EXAMPLE_SAMPLE_RATE配置采樣率.clk_cfg = I2S_STD_CLK_DEFAULT_CONFIG(EXAMPLE_SAMPLE_RATE),// 設置槽位配置，使用默認的Philips標準槽位配置，16位數據寬度和立體聲模式.slot_cfg = I2S_STD_PHILIPS_SLOT_DEFAULT_CONFIG(EXAMPLE_DATA_BIT_WIDTH, EXAMPLE_SLOT_MODE_MONO),// 設置GPIO配置，指定各個I2S信號的GPIO引腳，并配置信號不反轉.gpio_cfg = {.mclk = I2S_MCK_IO, // 主時鐘引腳.bclk = I2S_BCK_IO, // 位時鐘引腳.ws = I2S_WS_IO,??? // 左右聲道選擇引腳.dout = I2S_DO_IO,? // 數據輸出引腳.din = I2S_DI_IO,?? // 數據輸入引腳.invert_flags = {.mclk_inv = false, // 主時鐘不反轉.bclk_inv = false, // 位時鐘不反轉.ws_inv = false,?? // 左右聲道選擇信號不反轉},},};// 設置主時鐘的倍數std_cfg.clk_cfg.mclk_multiple = EXAMPLE_MCLK_MULTIPLE;// 初始化發送通道為標準I2S模式ESP_ERROR_CHECK(i2s_channel_init_std_mode(tx_handle, &std_cfg));// 初始化接收通道為標準I2S模式ESP_ERROR_CHECK(i2s_channel_init_std_mode(rx_handle, &std_cfg));// 啟用發送通道ESP_ERROR_CHECK(i2s_channel_enable(tx_handle));// 啟用接收通道ESP_ERROR_CHECK(i2s_channel_enable(rx_handle));return ESP_OK;
}static esp_err_t es8311_codec_init(void)
{/* 初始化I2C外設 */const i2c_config_t es_i2c_cfg = {.sda_io_num = I2C_SDA_IO,??????????? // SDA引腳編號.scl_io_num = I2C_SCL_IO,??????????? // SCL引腳編號.mode = I2C_MODE_MASTER,???????????? // I2C模式為主模式.sda_pullup_en = GPIO_PULLUP_ENABLE, // 啟用SDA引腳的上拉電阻.scl_pullup_en = GPIO_PULLUP_ENABLE, // 啟用SCL引腳的上拉電阻.master.clk_speed = 100000,??????? ??// I2C主時鐘速度為100 kHz};// 配置I2C參數ESP_RETURN_ON_ERROR(i2c_param_config(I2C_NUM, &es_i2c_cfg), TAG, "config i2c failed");// 安裝I2C驅動ESP_RETURN_ON_ERROR(i2c_driver_install(I2C_NUM, I2C_MODE_MASTER, 0, 0, 0), TAG, "install i2c driver failed");// 初始化ES8311編解碼器 創建ES8311句柄，使用I2C_NUM和ES8311的地址es8311_handle_t es_handle = es8311_create(I2C_NUM, ES8311_ADDRRES_0);ESP_RETURN_ON_FALSE(es_handle, ESP_FAIL, TAG, "es8311 create failed");// 配置ES8311的時鐘const es8311_clock_config_t es_clk = {.mclk_inverted = false,???????????????? // 主時鐘不反轉.sclk_inverted = false,???????????????? // 位時鐘不反轉.mclk_from_mclk_pin = true,???????????? // 主時鐘從MCLK引腳獲取.mclk_frequency = EXAMPLE_MCLK_FREQ_HZ, // 主時鐘頻率.sample_frequency = EXAMPLE_SAMPLE_RATE // 采樣頻率};// 初始化ES8311編解碼器ESP_ERROR_CHECK(es8311_init(es_handle, &es_clk, ES8311_RESOLUTION_16, ES8311_RESOLUTION_16));// 配置ES8311的采樣頻率ESP_RETURN_ON_ERROR(es8311_sample_frequency_config(es_handle, EXAMPLE_SAMPLE_RATE * EXAMPLE_MCLK_MULTIPLE, EXAMPLE_SAMPLE_RATE), TAG, "set es8311 sample frequency failed");// 設置ES8311的音量ESP_RETURN_ON_ERROR(es8311_voice_volume_set(es_handle, EXAMPLE_VOICE_VOLUME, NULL), TAG, "set es8311 volume failed");// 配置ES8311的麥克風ESP_RETURN_ON_ERROR(es8311_microphone_config(es_handle, false), TAG, "set es8311 microphone failed");// 設置ES8311的麥克風增益ESP_RETURN_ON_ERROR(es8311_microphone_gain_set(es_handle, EXAMPLE_MIC_GAIN), TAG, "set es8311 microphone gain failed");return ESP_OK;
}int es8311_get_feed_channel(void)
{return EXAMPLE_SLOT_MODE_MONO;
}esp_err_t es8311_get_feed_data(bool is_get_raw_channel, int16_t *buffer, int buffer_len){size_t bytes_read = 0;esp_err_t ret = ESP_OK;ret = i2s_channel_read(rx_handle, buffer, buffer_len, &bytes_read, 1000);if (ret != ESP_OK) {ESP_LOGE(TAG, "[echo] i2s read failed");abort(); // 終止程序}return ret;
}esp_err_t es8311_play_data(const int16_t *buffer, int buffer_len)
{size_t bytes_written = 0;esp_err_t ret = i2s_channel_write(tx_handle, buffer, buffer_len, &bytes_written, 1000);if (ret != ESP_OK) {ESP_LOGE(TAG, "i2s write failed");return ret;}return ESP_OK;
}void init_driver_es8311(void)
{gpio_config_t io_conf = {};io_conf.intr_type = GPIO_INTR_DISABLE;io_conf.mode = GPIO_MODE_OUTPUT;io_conf.pin_bit_mask = SPKER_CTRL_PIN_SEL;io_conf.pull_down_en = 0;io_conf.pull_up_en = 0;gpio_config(&io_conf);gpio_set_level(SPKER_CTRL_PIN, 1);printf("i2s es8311 codec example start\n-----------------------------\n");/* 初始化I2S外設 */if (i2s_driver_init() != ESP_OK){ESP_LOGE(TAG, "i2s driver init failed");abort(); // 終止程序}else{ESP_LOGI(TAG, "i2s driver init success");}/* 初始化I2C外設并配置ES8311編解碼器 */if (es8311_codec_init() != ESP_OK){ESP_LOGE(TAG, "es8311 codec init failed");abort(); // 終止程序}else{ESP_LOGI(TAG, "es8311 codec init success");}
}

main.c

#include <stdio.h>
#include <stdlib.h>
#include "freertos/FreeRTOS.h"
#include "freertos/task.h"
#include "esp_wn_iface.h"
#include "esp_wn_models.h"
#include "esp_afe_sr_models.h"
#include "esp_mn_iface.h"
#include "esp_mn_models.h"
#include "model_path.h"
#include "string.h"#include "driver_es8311.h"int detect_flag = 0;????????????????????????? // 檢測標志，初始為0
static esp_afe_sr_iface_t *afe_handle = NULL; // AFE 處理接口句柄
static volatile int task_flag = 0;??????????? // 任務標志，用于控制任務的運行// 任務：從麥克風獲取音頻數據并喂給 AFE 處理
void feed_Task(void *arg)
{esp_afe_sr_data_t *afe_data = arg;????????????????????????????? // 獲取 AFE 數據結構int audio_chunksize = afe_handle->get_feed_chunksize(afe_data); // 獲取每次喂給 AFE 的音頻塊大小int nch = afe_handle->get_feed_channel_num(afe_data);?????????? // 獲取音頻通道數int feed_channel = es8311_get_feed_channel(); // 獲取實際的音頻通道數assert(nch == feed_channel);????????????????? // 確保通道數匹配// 分配內存以存儲音頻數據塊int16_t *i2s_buff = malloc(audio_chunksize * sizeof(int16_t) * feed_channel);assert(i2s_buff);while (task_flag){ // 當任務標志為1時，持續運行// 從麥克風獲取音頻數據es8311_get_feed_data(true, i2s_buff, audio_chunksize * sizeof(int16_t) * feed_channel);// 將音頻數據喂給 AFE 處理afe_handle->feed(afe_data, i2s_buff);}// 釋放內存if (i2s_buff){free(i2s_buff);i2s_buff = NULL;}// 刪除任務vTaskDelete(NULL);
}// 任務：檢測喚醒詞
void detect_Task(void *arg)
{esp_afe_sr_data_t *afe_data = arg;???????????????????????????? // 獲取 AFE 數據結構int afe_chunksize = afe_handle->get_fetch_chunksize(afe_data); // 獲取每次從 AFE 獲取的音頻塊大小int16_t *buff = malloc(afe_chunksize * sizeof(int16_t));?????? // 分配內存以存儲音頻數據塊assert(buff);printf("------------detect start------------\n");while (task_flag){ // 當任務標志為1時，持續運行// 從 AFE 獲取處理結果afe_fetch_result_t *res = afe_handle->fetch(afe_data);if (!res || res->ret_value == ESP_FAIL){printf("fetch error!\n");break;}if (res->wakeup_state == WAKENET_DETECTED) {printf("wakeword detected\n");printf("model index:%d, word index:%d\n", res->wakenet_model_index, res->wake_word_index);printf("-----------LISTENING-----------\n");}// if (res->vad_state == VAD_SILENCE)// {//???? printf("VAD_SILENCE\n");// }// else if (res->vad_state == VAD_SPEECH)// {//???? printf("VAD_SPEECH\n");// }}// 釋放內存if (buff){free(buff);buff = NULL;}// 刪除任務vTaskDelete(NULL);
}void app_main()
{// 初始化音頻板，設置采樣率為16000 Hz，單聲道，位深為16位init_driver_es8311();// 初始化聲學前端（AFE）模型，存儲到分區表的model分區srmodel_list_t *models = esp_srmodel_init("model");if (models){for (int i = 0; i < models->num; i++){if (strstr(models->model_name[i], ESP_WN_PREFIX) != NULL){printf("wakenet model in flash: %s\n", models->model_name[i]);}}}//"MR"：聲學前端模型名稱，模型具體參考https://docs.espressif.com/projects/esp-sr/zh_CN/latest/esp32s3/benchmark/README.html// M:麥克風通道 R:播放參考通道 N:未使用或未知通道 MRNN代表一個麥克風通道、一個播放通道// models：聲學前端和麥克風喚醒模型列表。// AFE_TYPE_VC :用于語音通話降噪 AFE_TYPE_SR：用于語音識別。// AFE_MODE_LOW_COST：AFE 模式，低功耗模式。afe_config_t *afe_config = afe_config_init("MR", models, AFE_TYPE_SR, AFE_MODE_LOW_COST);// print/modify wake word model.if (afe_config->wakenet_model_name){printf("wakeword model in AFE config: %s\n", afe_config->wakenet_model_name);}if (afe_config->wakenet_model_name_2){printf("wakeword model in AFE config: %s\n", afe_config->wakenet_model_name_2);}afe_handle = esp_afe_handle_from_config(afe_config);esp_afe_sr_data_t *afe_data = afe_handle->create_from_config(afe_config);afe_config_free(afe_config); // 釋放 AFE 配置內存task_flag = 1; // 設置任務標志為1，啟動任務// 創建音頻采集任務，運行在核心0xTaskCreatePinnedToCore(&feed_Task, "feed", 8 * 1024, (void *)afe_data, 5, NULL, 0);// 創建檢測喚醒詞任務，運行在核心1xTaskCreatePinnedToCore(&detect_Task, "detect", 4 * 1024, (void *)afe_data, 5, NULL, 1);
}

音頻減噪功能實現

新建工程，添加sr組件

idf.py add-dependency "espressif/esp-sr^2.0.2"
idf.py add-dependency "espressif/es8311^1.0.0"

添加自定義分區表

# Espressif ESP32 Partition Table
# Name,? Type, SubType, Offset,? Size
factory, app,? factory, 0x010000, 2500k
model,? data, spiffs,???????? , 5168K,

最終main.c

#include <stdio.h>
#include <stdlib.h>
#include "freertos/FreeRTOS.h"
#include "freertos/task.h"
#include "esp_wn_iface.h"
#include "esp_wn_models.h"
#include "esp_afe_sr_models.h"
#include "esp_mn_iface.h"
#include "esp_mn_models.h"
#include "model_path.h"
#include "string.h"#include "driver_es8311.h"int detect_flag = 0;? // 檢測標志，初始為0
static esp_afe_sr_iface_t *afe_handle = NULL;? // AFE 處理接口句柄
static volatile int task_flag = 0;? // 任務標志，用于控制任務的運行// 任務：從麥克風獲取音頻數據并喂給 AFE 處理
void feed_Task(void *arg) {esp_afe_sr_data_t *afe_data = arg;? // 獲取 AFE 數據結構int audio_chunksize = afe_handle->get_feed_chunksize(afe_data);? // 獲取每次喂給 AFE 的音頻塊大小int nch = afe_handle->get_feed_channel_num(afe_data);? // 獲取音頻通道數int feed_channel = es8311_get_feed_channel();? // 獲取實際的音頻通道數assert(nch == feed_channel);? // 確保通道數匹配// 分配內存以存儲音頻數據塊int16_t *i2s_buff = malloc(audio_chunksize * sizeof(int16_t) * feed_channel);assert(i2s_buff);while (task_flag) {? // 當任務標志為1時，持續運行// 從麥克風獲取音頻數據es8311_get_feed_data(true, i2s_buff, audio_chunksize * sizeof(int16_t) * feed_channel);// 將音頻數據喂給 AFE 處理afe_handle->feed(afe_data, i2s_buff);}// 釋放內存if (i2s_buff) {free(i2s_buff);i2s_buff = NULL;}// 刪除任務vTaskDelete(NULL);
}// 任務：音頻處理結果
void detect_Task(void *arg) {esp_afe_sr_data_t *afe_data = arg;? // 獲取 AFE 數據結構int afe_chunksize = afe_handle->get_fetch_chunksize(afe_data);? // 獲取每次從 AFE 獲取的音頻塊大小int16_t *buff = malloc(afe_chunksize * sizeof(int16_t));? // 分配內存以存儲音頻數據塊assert(buff);printf("------------detect start------------\n");while (task_flag) {? // 當任務標志為1時，持續運行// 從 AFE 獲取處理結果afe_fetch_result_t* res = afe_handle->fetch(afe_data);if (res && res->ret_value != ESP_FAIL) {memcpy(buff, res->data, afe_chunksize * sizeof(int16_t));// 在這里使用算法處理后的音頻，存儲到本地或者上傳云端//data = buff,len =? afe_chunksize * sizeof(int16_t)}}// 釋放內存if (buff) {free(buff);buff = NULL;}// 刪除任務vTaskDelete(NULL);
}void app_main() {// 初始化音頻板，設置采樣率為16000 Hz，單聲道，位深為16位init_driver_es8311();// 初始化聲學前端（AFE）模型，存儲到分區表的model分區srmodel_list_t *models = esp_srmodel_init("model");if (models) {for (int i=0; i<models->num; i++) {if (strstr(models->model_name[i], ESP_WN_PREFIX) != NULL) {printf("wakenet model in flash: %s\n", models->model_name[i]);}}}//"MR"：聲學前端模型名稱，模型具體參考https://docs.espressif.com/projects/esp-sr/zh_CN/latest/esp32s3/benchmark/README.html。//models：聲學前端和麥克風喚醒模型列表。//AFE_TYPE_VC :用于語音降噪。//AFE_MODE_LOW_COST：AFE 模式，低功耗模式。afe_config_t *afe_config = afe_config_init("MR", models, AFE_TYPE_VC, AFE_MODE_LOW_COST);afe_handle = esp_afe_handle_from_config(afe_config);esp_afe_sr_data_t *afe_data = afe_handle->create_from_config(afe_config);afe_config_free(afe_config);? // 釋放 AFE 配置內存task_flag = 1;? // 設置任務標志為1，啟動任務// 創建音頻采集任務，運行在核心0xTaskCreatePinnedToCore(&feed_Task, "feed", 8 * 1024, (void*)afe_data, 5, NULL, 0);// 創建檢測喚醒詞任務，運行在核心1xTaskCreatePinnedToCore(&detect_Task, "detect", 4 * 1024, (void*)afe_data, 5, NULL, 1);
}

默認啟用：
如果應用涉及 Wi-Fi 或網絡通信，
建議默認開啟 WIFI_IRAM_OPT 和 LWIP_IRAM_OPTIMIZATION。
按需啟用 WIFI_RX_IRAM_OPT：僅在需要 極低延遲接收
或 Wi-Fi/BLE 并發 時啟用WIFI_STATIC_RX_BUFFER_NUM 16? 24 靜態 Wi-Fi 接收緩沖區數量
WIFI_DYNAMIC_RX_BUFFER_NUM 32 64 動態 Wi-Fi 接收緩沖區數量
WIFI_STATIC_TX_BUFFER_NUM 16 24 靜態 Wi-Fi 發送緩沖區數量
WIFI_RX_BA_WIN 16 32 Block Ack 窗口大小 影響吞吐量，不占內存
LWIP_UDP_RECVMBOX_SIZE 6 64? 16