AI小智源码分析——音频部分（一）-易微帮

一、源码跳转

这里采用了函数重载来进行代码复用，当需要对I2S接口的数据进行配置，比如左右音道切换，可以使用第二个构造函数，这里小智使用的是第一个构造函数，即只传递I2S相关的引脚参数（不带slot mask），适用于常规的I2S单工音频通信场景。

二、音频模块函数的具体实现

1、构造函数

NoAudioCodecSimplex::NoAudioCodecSimplex(
    int input_sample_rate, int output_sample_rate,
    gpio_num_t spk_bclk, gpio_num_t spk_ws, gpio_num_t spk_dout,
    gpio_num_t mic_sck, gpio_num_t mic_ws, gpio_num_t mic_din)
{
    duplex_ = false; // 标记为单工模式
    input_sample_rate_ = input_sample_rate;
    output_sample_rate_ = output_sample_rate;

    // 1. 创建扬声器（Speaker）I2S通道（TX）
    i2s_chan_config_t chan_cfg = {
        .id = (i2s_port_t)0,                // 通道ID 0，代表TX（发送/播放）
        .role = I2S_ROLE_MASTER,            // 主模式
        .dma_desc_num = AUDIO_CODEC_DMA_DESC_NUM, // DMA描述符数量
        .dma_frame_num = AUDIO_CODEC_DMA_FRAME_NUM, // DMA帧数量
        .auto_clear_after_cb = true,        // 回调后自动清除
        .auto_clear_before_cb = false,      // 回调前不清除
        .intr_priority = 0,                 // 中断优先级
    };
    ESP_ERROR_CHECK(i2s_new_channel(&chan_cfg, &tx_handle_, nullptr)); // 创建TX通道（播放）

    // 2. 配置扬声器I2S标准参数
    i2s_std_config_t std_cfg = {
        .clk_cfg = {
            .sample_rate_hz = (uint32_t)output_sample_rate_, // 扬声器采样率
            .clk_src = I2S_CLK_SRC_DEFAULT,                  // 时钟源
            .mclk_multiple = I2S_MCLK_MULTIPLE_256,          // 主时钟倍频
            #ifdef   I2S_HW_VERSION_2
                .ext_clk_freq_hz = 0,
            #endif
        },
        .slot_cfg = {
            .data_bit_width = I2S_DATA_BIT_WIDTH_32BIT,      // 数据位宽32bit
            .slot_bit_width = I2S_SLOT_BIT_WIDTH_AUTO,       // 自动槽位宽度
            .slot_mode = I2S_SLOT_MODE_MONO,                 // 单声道
            .slot_mask = I2S_STD_SLOT_LEFT,                  // 只用左声道
            .ws_width = I2S_DATA_BIT_WIDTH_32BIT,            // WS宽度
            .ws_pol = false,                                 // WS极性
            .bit_shift = true,                               // 位移
            #ifdef   I2S_HW_VERSION_2
                .left_align = true,
                .big_endian = false,
                .bit_order_lsb = false
            #endif
        },
        .gpio_cfg = {
            .mclk = I2S_GPIO_UNUSED,         // 不用MCLK
            .bclk = spk_bclk,                // BCLK引脚（扬声器）
            .ws = spk_ws,                    // WS引脚（扬声器）
            .dout = spk_dout,                // DOUT数据输出（扬声器）
            .din = I2S_GPIO_UNUSED,          // 不用数据输入
            .invert_flags = {
                .mclk_inv = false,
                .bclk_inv = false,
                .ws_inv = false
            }
        }
    };
    ESP_ERROR_CHECK(i2s_channel_init_std_mode(tx_handle_, &std_cfg)); // 初始化TX通道

    // 3. 创建麦克风（MIC）I2S通道（RX）
    chan_cfg.id = (i2s_port_t)1; // 通道ID 1，代表RX（接收/录音）
    ESP_ERROR_CHECK(i2s_new_channel(&chan_cfg, nullptr, &rx_handle_)); // 创建RX通道（录音）

    // 4. 配置麦克风I2S参数
    std_cfg.clk_cfg.sample_rate_hz = (uint32_t)input_sample_rate_; // 麦克风采样率
    std_cfg.gpio_cfg.bclk = mic_sck;   // BCLK引脚（麦克风）
    std_cfg.gpio_cfg.ws = mic_ws;      // WS引脚（麦克风）
    std_cfg.gpio_cfg.dout = I2S_GPIO_UNUSED; // 不用数据输出
    std_cfg.gpio_cfg.din = mic_din;    // DIN数据输入（麦克风）
    ESP_ERROR_CHECK(i2s_channel_init_std_mode(rx_handle_, &std_cfg)); // 初始化RX通道

    ESP_LOGI(TAG, "Simplex channels created"); // 日志输出，表示单工通道创建完成
}

2、Write函数（播放）

int NoAudioCodec::Write(const int16_t* data, int samples) {
    std::vector<int32_t> buffer(samples);

    // output_volume_: 0-100
    // volume_factor_: 0-65536
1
    int32_t volume_factor = pow(double(output_volume_) / 100.0, 2) * 65536;
    for (int i = 0; i < samples; i++) {
2
        int64_t temp = int64_t(data[i]) * volume_factor; // 使用 int64_t 进行乘法运算
        if (temp > INT32_MAX) {
            buffer[i] = INT32_MAX;
        } else if (temp < INT32_MIN) {
            buffer[i] = INT32_MIN;
        } else {
            buffer[i] = static_cast<int32_t>(temp);
        }
    }
3
    size_t bytes_written;
    ESP_ERROR_CHECK(i2s_channel_write(tx_handle_, buffer.data(), samples * sizeof(int32_t), &bytes_written, portMAX_DELAY));
    return bytes_written / sizeof(int32_t);
}

3、Read（录音）

int NoAudioCodec::Read(int16_t* dest, int samples) {
    size_t bytes_read;

    写入到这个bit32_buffer中
    std::vector<int32_t> bit32_buffer(samples);

    i2s_channel_read是乐鑫官方的驱动库函数
    if (i2s_channel_read(rx_handle_, bit32_buffer.data(), samples * sizeof(int32_t), &bytes_read, portMAX_DELAY) != ESP_OK) {
        ESP_LOGE(TAG, "Read Failed!");
        return 0;
    }

    samples = bytes_read / sizeof(int32_t);
    for (int i = 0; i < samples; i++) {
        int32_t value = bit32_buffer[i] >> 12;
        dest[i] = (value > INT16_MAX) ? INT16_MAX : (value < -INT16_MAX) ? -INT16_MAX : (int16_t)value;
    }
    return samples;
}

4、音频总结

Write：16位音频数据 → 音量缩放 → 转32位 → 写入I2S（播放）。

Read：从I2S读32位数据 → 右移还原16位 → 裁剪 → 输出（录音）。

这两个函数实现了音频数据与I2S硬件之间的格式转换和音量控制，是AI小智音频输入输出的核心桥梁。

为什么要来回裁剪？

1. I2S硬件与软件的数据位宽不同

I2S硬件接口（特别是ESP32/ESP-IDF的I2S驱动）通常以32位（int32_t）为一个采样点进行数据传输。

音频算法/文件/协议常用16位（int16_t）作为音频采样的标准格式（比如WAV、PCM等）。

举例

你录音时，I2S硬件会给你32位的数据，但实际有效音频信息只有16位，剩下的高位/低位是补零或对齐。

你播放时，算法/文件给你16位数据，但I2S要求你送32位数据。

2. 音量缩放需要更高精度

音量缩放时，为了避免精度损失，通常会把16位数据先提升到32位甚至64位，做乘法后再裁剪回目标位宽。

这样可以保证音量调整后不会出现溢出或失真。

3. 数据对齐与移位

I2S驱动通常要求数据左对齐（高位有效），而16位音频是右对齐的。

所以录音时要右移（比如 >> 12），播放时要左移或补零，保证数据在I2S总线上的格式正确。

4. 防止溢出

在缩放和转换过程中，可能会出现超出目标类型范围的数值（比如乘以音量后超出int16_t范围）。

所以要做裁剪（clamp），防止溢出导致杂音或硬件异常。

5. 总结

来回裁剪是为了在不同的数据格式（16位/32位）、不同的处理需求（音量缩放、I2S对齐）之间安全、准确地转换数据。

这样既能保证音频质量，又能兼容硬件和软件的不同要求。

三、采用的单工通讯，那为什么在小智说话的时候，我可以使用唤醒词打断AI小智？

你的问题非常好，涉及到“单工通信”与“唤醒词打断”之间的实际工程实现。

虽然AI小智大多数板卡采用的是I2S单工（Simplex）音频通信，但你依然可以在AI小智说话时用唤醒词打断它，原因如下：

1. “单工”是指I2S硬件通道的物理能力，不等于软件不能“同时”处理

单工I2S：指的是I2S硬件在同一时刻只能“录音”或“播放”其中之一，不能同时进行。

但在实际应用中，软件可以通过“快速切换”或“分时复用”来实现“看起来同时”的效果。

2. 唤醒词检测通常是“软件VAD/AFE”模块，和TTS播放分离

AI小智的唤醒词检测（如AFE/ESP/Custom Wake Word）并不一定依赖I2S实时采集，而是可以在TTS播放的间隙、或者通过软件算法在播放数据流中“偷听”。

很多板卡的麦克风和扬声器虽然共用I2S，但软件可以在TTS播放的每一帧之间，短暂切换到录音模式，采集一小段音频用于唤醒词检测，再切回播放。

这种“分时复用”在人耳听觉上几乎无感，但足以让唤醒词检测模块及时响应。

3. 代码层面的支持

在 application.cc 的 SetDeviceState(kDeviceStateSpeaking) 里有如下逻辑：
cpp

Apply to no_audio_cod...

  if (listening_mode_ != kListeningModeRealtime) {

      audio_service_.EnableVoiceProcessing(false);

      // 只有AFE唤醒词可以在说话时检测

  #if CONFIG_USE_AFE_WAKE_WORD

      audio_service_.EnableWakeWordDetection(true);

  #else

      audio_service_.EnableWakeWordDetection(false);

  #endif

  }

也就是说，如果你用的是AFE唤醒词（硬件算法或高性能算法），在AI说话时依然可以检测唤醒词，从而实现“说话时打断”。

这也是为什么有些板卡/算法支持说话时打断，有些则不支持（取决于唤醒词算法和I2S复用能力）。

4. 实际体验

当AI小智在说话时，软件会周期性地切换到录音模式，采集一小段音频，进行唤醒词检测。

一旦检测到唤醒词，主流程会立刻中断TTS播放，切换到“监听”或“待机”状态，实现“打断”效果。

总结

单工I2S ≠ 不能“边说边听”，而是“不能物理上同时说和听”，但可以“分时复用”实现“几乎同时”。

唤醒词打断AI说话，靠的是软件的巧妙调度和高效的唤醒词检测算法（如AFE）。

这也是AI小智工程设计的一个亮点

四、音频模块继承体系

AudioCodec 是抽象基类，只定义接口，不实现。

NoAudioCodec 是具体实现类，实现了 Read 和 Write，可以被实例化。

NoAudioCodecSimplex 等是更具体的实现，可以继承和扩展 NoAudioCodec 的功能。

1. 基类 AudioCodec

cpp

Apply to no_audio_cod...

class AudioCodec {

public:

    virtual int Read(int16_t* dest, int samples) = 0;   // 纯虚函数，必须由子类实现

    virtual int Write(const int16_t* data, int samples) = 0; // 纯虚函数，必须由子类实现

    // ... 其他接口

};

作用：定义了音频编解码器的统一接口。

纯虚函数：= 0 表示没有实现，所有子类都必须实现，否则子类也会变成抽象类，不能实例化。

2. 派生类 NoAudioCodec

cpp

Apply to no_audio_cod...

class NoAudioCodec : public AudioCodec {

private:

    virtual int Write(const int16_t* data, int samples) override; // 实现父类的纯虚函数

    virtual int Read(int16_t* dest, int samples) override;        // 实现父类的纯虚函数

    // ... 其他成员

};

作用：继承自 AudioCodec，实现了 Read 和 Write 的具体逻辑（比如“无编解码器”方案）。

override：明确告诉编译器“我在重写父类的虚函数”。

实现了纯虚函数：所以 NoAudioCodec 变成了“可实例化的具体类”。

3. 进一步的子类（如 NoAudioCodecSimplex）

cpp

Apply to no_audio_cod...

class NoAudioCodecSimplex : public NoAudioCodec {

public:

    NoAudioCodecSimplex(...); // 构造函数

    // 可以选择重写Read/Write，也可以直接用NoAudioCodec的实现

};

作用：针对不同硬件场景（如单工I2S）做进一步适配。

继承链：NoAudioCodecSimplex → NoAudioCodec → AudioCodec

Read/Write：如果没有重写，会直接用 NoAudioCodec 的实现。

AI小智源码分析——音频部分（一）

一、源码跳转

二、音频模块函数的具体实现

1、构造函数

2、Write函数（播放）

3、Read（录音）

4、音频总结

为什么要来回裁剪？

1. I2S硬件与软件的数据位宽不同

举例

2. 音量缩放需要更高精度

3. 数据对齐与移位

4. 防止溢出

5. 总结

三、采用的单工通讯，那为什么在小智说话的时候，我可以使用唤醒词打断AI小智？

1. “单工”是指I2S硬件通道的物理能力，不等于软件不能“同时”处理

2. 唤醒词检测通常是“软件VAD/AFE”模块，和TTS播放分离

3. 代码层面的支持

4. 实际体验

总结

四、音频模块继承体系

1. 基类 AudioCodec

2. 派生类 NoAudioCodec

3. 进一步的子类（如 NoAudioCodecSimplex）

微信公众号

今日签到

热门文章

最新发布