AI小智源码分析——音频部分(一)

发布于:2025-07-26 ⋅ 阅读:(11) ⋅ 点赞:(0)

 一、源码跳转

这里采用了函数重载来进行代码复用,当需要对I2S接口的数据进行配置,比如左右音道切换,可以使用第二个构造函数,这里小智使用的是第一个构造函数,即只传递I2S相关的引脚参数(不带slot mask),适用于常规的I2S单工音频通信场景

 二、音频模块函数的具体实现

1、构造函数

NoAudioCodecSimplex::NoAudioCodecSimplex(
    int input_sample_rate, int output_sample_rate,
    gpio_num_t spk_bclk, gpio_num_t spk_ws, gpio_num_t spk_dout,
    gpio_num_t mic_sck, gpio_num_t mic_ws, gpio_num_t mic_din)
{
    duplex_ = false; // 标记为单工模式
    input_sample_rate_ = input_sample_rate;
    output_sample_rate_ = output_sample_rate;

    // 1. 创建扬声器(Speaker)I2S通道(TX)
    i2s_chan_config_t chan_cfg = {
        .id = (i2s_port_t)0,                // 通道ID 0,代表TX(发送/播放)
        .role = I2S_ROLE_MASTER,            // 主模式
        .dma_desc_num = AUDIO_CODEC_DMA_DESC_NUM, // DMA描述符数量
        .dma_frame_num = AUDIO_CODEC_DMA_FRAME_NUM, // DMA帧数量
        .auto_clear_after_cb = true,        // 回调后自动清除
        .auto_clear_before_cb = false,      // 回调前不清除
        .intr_priority = 0,                 // 中断优先级
    };
    ESP_ERROR_CHECK(i2s_new_channel(&chan_cfg, &tx_handle_, nullptr)); // 创建TX通道(播放)

    // 2. 配置扬声器I2S标准参数
    i2s_std_config_t std_cfg = {
        .clk_cfg = {
            .sample_rate_hz = (uint32_t)output_sample_rate_, // 扬声器采样率
            .clk_src = I2S_CLK_SRC_DEFAULT,                  // 时钟源
            .mclk_multiple = I2S_MCLK_MULTIPLE_256,          // 主时钟倍频
            #ifdef   I2S_HW_VERSION_2
                .ext_clk_freq_hz = 0,
            #endif
        },
        .slot_cfg = {
            .data_bit_width = I2S_DATA_BIT_WIDTH_32BIT,      // 数据位宽32bit
            .slot_bit_width = I2S_SLOT_BIT_WIDTH_AUTO,       // 自动槽位宽度
            .slot_mode = I2S_SLOT_MODE_MONO,                 // 单声道
            .slot_mask = I2S_STD_SLOT_LEFT,                  // 只用左声道
            .ws_width = I2S_DATA_BIT_WIDTH_32BIT,            // WS宽度
            .ws_pol = false,                                 // WS极性
            .bit_shift = true,                               // 位移
            #ifdef   I2S_HW_VERSION_2
                .left_align = true,
                .big_endian = false,
                .bit_order_lsb = false
            #endif
        },
        .gpio_cfg = {
            .mclk = I2S_GPIO_UNUSED,         // 不用MCLK
            .bclk = spk_bclk,                // BCLK引脚(扬声器)
            .ws = spk_ws,                    // WS引脚(扬声器)
            .dout = spk_dout,                // DOUT数据输出(扬声器)
            .din = I2S_GPIO_UNUSED,          // 不用数据输入
            .invert_flags = {
                .mclk_inv = false,
                .bclk_inv = false,
                .ws_inv = false
            }
        }
    };
    ESP_ERROR_CHECK(i2s_channel_init_std_mode(tx_handle_, &std_cfg)); // 初始化TX通道

    // 3. 创建麦克风(MIC)I2S通道(RX)
    chan_cfg.id = (i2s_port_t)1; // 通道ID 1,代表RX(接收/录音)
    ESP_ERROR_CHECK(i2s_new_channel(&chan_cfg, nullptr, &rx_handle_)); // 创建RX通道(录音)

    // 4. 配置麦克风I2S参数
    std_cfg.clk_cfg.sample_rate_hz = (uint32_t)input_sample_rate_; // 麦克风采样率
    std_cfg.gpio_cfg.bclk = mic_sck;   // BCLK引脚(麦克风)
    std_cfg.gpio_cfg.ws = mic_ws;      // WS引脚(麦克风)
    std_cfg.gpio_cfg.dout = I2S_GPIO_UNUSED; // 不用数据输出
    std_cfg.gpio_cfg.din = mic_din;    // DIN数据输入(麦克风)
    ESP_ERROR_CHECK(i2s_channel_init_std_mode(rx_handle_, &std_cfg)); // 初始化RX通道

    ESP_LOGI(TAG, "Simplex channels created"); // 日志输出,表示单工通道创建完成
}

 2、Write函数(播放)

int NoAudioCodec::Write(const int16_t* data, int samples) {
    std::vector<int32_t> buffer(samples);

    // output_volume_: 0-100
    // volume_factor_: 0-65536
1
    int32_t volume_factor = pow(double(output_volume_) / 100.0, 2) * 65536;
    for (int i = 0; i < samples; i++) {
2
        int64_t temp = int64_t(data[i]) * volume_factor; // 使用 int64_t 进行乘法运算
        if (temp > INT32_MAX) {
            buffer[i] = INT32_MAX;
        } else if (temp < INT32_MIN) {
            buffer[i] = INT32_MIN;
        } else {
            buffer[i] = static_cast<int32_t>(temp);
        }
    }
3
    size_t bytes_written;
    ESP_ERROR_CHECK(i2s_channel_write(tx_handle_, buffer.data(), samples * sizeof(int32_t), &bytes_written, portMAX_DELAY));
    return bytes_written / sizeof(int32_t);
}

3、Read(录音)

int NoAudioCodec::Read(int16_t* dest, int samples) {
    size_t bytes_read;

    写入到这个bit32_buffer中
    std::vector<int32_t> bit32_buffer(samples);

    i2s_channel_read是乐鑫官方的驱动库函数
    if (i2s_channel_read(rx_handle_, bit32_buffer.data(), samples * sizeof(int32_t), &bytes_read, portMAX_DELAY) != ESP_OK) {
        ESP_LOGE(TAG, "Read Failed!");
        return 0;
    }

    samples = bytes_read / sizeof(int32_t);
    for (int i = 0; i < samples; i++) {
        int32_t value = bit32_buffer[i] >> 12;
        dest[i] = (value > INT16_MAX) ? INT16_MAX : (value < -INT16_MAX) ? -INT16_MAX : (int16_t)value;
    }
    return samples;
}

 4、音频总结

  • Write:16位音频数据 → 音量缩放 → 转32位 → 写入I2S(播放)。
  • Read:从I2S读32位数据 → 右移还原16位 → 裁剪 → 输出(录音)。

这两个函数实现了音频数据与I2S硬件之间的格式转换和音量控制,是AI小智音频输入输出的核心桥梁。

为什么要来回裁剪?

1. I2S硬件与软件的数据位宽不同

  • I2S硬件接口(特别是ESP32/ESP-IDF的I2S驱动)通常以32位(int32_t)为一个采样点进行数据传输。
  • 音频算法/文件/协议常用16位(int16_t)作为音频采样的标准格式(比如WAV、PCM等)。

举例

  • 你录音时,I2S硬件会给你32位的数据,但实际有效音频信息只有16位,剩下的高位/低位是补零或对齐。
  • 你播放时,算法/文件给你16位数据,但I2S要求你送32位数据。

2. 音量缩放需要更高精度

  • 音量缩放时,为了避免精度损失,通常会把16位数据先提升到32位甚至64位,做乘法后再裁剪回目标位宽。
  • 这样可以保证音量调整后不会出现溢出或失真。

3. 数据对齐与移位

  • I2S驱动通常要求数据左对齐(高位有效),而16位音频是右对齐的。
  • 所以录音时要右移(比如 >> 12),播放时要左移或补零,保证数据在I2S总线上的格式正确。

4. 防止溢出

  • 在缩放和转换过程中,可能会出现超出目标类型范围的数值(比如乘以音量后超出int16_t范围)。
  • 所以要做裁剪(clamp),防止溢出导致杂音或硬件异常。

5. 总结

  • 来回裁剪是为了在不同的数据格式(16位/32位)、不同的处理需求(音量缩放、I2S对齐)之间安全、准确地转换数据。
  • 这样既能保证音频质量,又能兼容硬件和软件的不同要求。

三、采用的单工通讯,那为什么在小智说话的时候,我可以使用唤醒词打断AI小智?

你的问题非常好,涉及到“单工通信”与“唤醒词打断”之间的实际工程实现。

虽然AI小智大多数板卡采用的是I2S单工(Simplex)音频通信,但你依然可以在AI小智说话时用唤醒词打断它,原因如下:


1. “单工”是指I2S硬件通道的物理能力,不等于软件不能“同时”处理

  • 单工I2S:指的是I2S硬件在同一时刻只能“录音”或“播放”其中之一,不能同时进行。
  • 但在实际应用中,软件可以通过“快速切换”或“分时复用”来实现“看起来同时”的效果。

2. 唤醒词检测通常是“软件VAD/AFE”模块,和TTS播放分离

  • AI小智的唤醒词检测(如AFE/ESP/Custom Wake Word)并不一定依赖I2S实时采集,而是可以在TTS播放的间隙、或者通过软件算法在播放数据流中“偷听”。
  • 很多板卡的麦克风和扬声器虽然共用I2S,但软件可以在TTS播放的每一帧之间,短暂切换到录音模式,采集一小段音频用于唤醒词检测,再切回播放。
  • 这种“分时复用”在人耳听觉上几乎无感,但足以让唤醒词检测模块及时响应。

3. 代码层面的支持

  • 在 application.cc 的 SetDeviceState(kDeviceStateSpeaking) 里有如下逻辑:

    cpp

    Apply to no_audio_cod...

      if (listening_mode_ != kListeningModeRealtime) {

          audio_service_.EnableVoiceProcessing(false);

          // 只有AFE唤醒词可以在说话时检测

      #if CONFIG_USE_AFE_WAKE_WORD

          audio_service_.EnableWakeWordDetection(true);

      #else

          audio_service_.EnableWakeWordDetection(false);

      #endif

      }

  • 也就是说,如果你用的是AFE唤醒词(硬件算法或高性能算法),在AI说话时依然可以检测唤醒词,从而实现“说话时打断”。
  • 这也是为什么有些板卡/算法支持说话时打断,有些则不支持(取决于唤醒词算法和I2S复用能力)。

4. 实际体验

  • 当AI小智在说话时,软件会周期性地切换到录音模式,采集一小段音频,进行唤醒词检测。
  • 一旦检测到唤醒词,主流程会立刻中断TTS播放,切换到“监听”或“待机”状态,实现“打断”效果。

总结

  • 单工I2S ≠ 不能“边说边听”,而是“不能物理上同时说和听”,但可以“分时复用”实现“几乎同时”。
  • 唤醒词打断AI说话,靠的是软件的巧妙调度和高效的唤醒词检测算法(如AFE)。
  • 这也是AI小智工程设计的一个亮点

 

四、音频模块继承体系

  • AudioCodec 是抽象基类,只定义接口,不实现。
  • NoAudioCodec 是具体实现类,实现了 Read 和 Write,可以被实例化。
  • NoAudioCodecSimplex 等是更具体的实现,可以继承和扩展 NoAudioCodec 的功能。

1. 基类 AudioCodec

cpp

Apply to no_audio_cod...

class AudioCodec {

public:

    virtual int Read(int16_t* dest, int samples) = 0;   // 纯虚函数,必须由子类实现

    virtual int Write(const int16_t* data, int samples) = 0; // 纯虚函数,必须由子类实现

    // ... 其他接口

};
  • 作用:定义了音频编解码器的统一接口。
  • 纯虚函数:= 0 表示没有实现,所有子类都必须实现,否则子类也会变成抽象类,不能实例化。

2. 派生类 NoAudioCodec

cpp

Apply to no_audio_cod...

class NoAudioCodec : public AudioCodec {

private:

    virtual int Write(const int16_t* data, int samples) override; // 实现父类的纯虚函数

    virtual int Read(int16_t* dest, int samples) override;        // 实现父类的纯虚函数

    // ... 其他成员

};
  • 作用:继承自 AudioCodec,实现了 Read 和 Write 的具体逻辑(比如“无编解码器”方案)。
  • override:明确告诉编译器“我在重写父类的虚函数”。
  • 实现了纯虚函数:所以 NoAudioCodec 变成了“可实例化的具体类”。

3. 进一步的子类(如 NoAudioCodecSimplex)

cpp

Apply to no_audio_cod...

class NoAudioCodecSimplex : public NoAudioCodec {

public:

    NoAudioCodecSimplex(...); // 构造函数

    // 可以选择重写Read/Write,也可以直接用NoAudioCodec的实现

};
  • 作用:针对不同硬件场景(如单工I2S)做进一步适配。
  • 继承链:NoAudioCodecSimplex → NoAudioCodec → AudioCodec
  • Read/Write:如果没有重写,会直接用 NoAudioCodec 的实现。

 


网站公告

今日签到

点亮在社区的每一天
去签到