1/configs/ecapa_tdnn.yml

# 数据集参数
dataset_conf:
  # 训练的批量大小
  batch_size: 256
  # 说话人数量，即分类大小
  num_speakers: 3242
  # 读取数据的线程数量
  num_workers: 12
  # 过滤最短的音频长度
  min_duration: 0.5
  # 最长的音频长度，大于这个长度会裁剪掉
  max_duration: 6
  # 是否裁剪静音片段
  do_vad: False
  # 音频的采样率
  sample_rate: 16000
  # 是否对音频进行音量归一化
  use_dB_normalization: False
  # 对音频进行音量归一化的音量分贝值
  target_dB: -20
  # 训练数据的数据列表路径
  train_list: 'dataset/train_list.txt'
  # 测试数据的数据列表路径
  test_list: 'dataset/test_list.txt'
  # 标签列表
  label_list_path: 'dataset/label_list.txt'

# 数据预处理参数
preprocess_conf:
  # 音频预处理方法，支持：MelSpectrogram、Spectrogram、MFCC、Fbank
  feature_method: 'Fbank'

feature_conf:
  sample_frequency: 16000
  num_mel_bins: 80

optimizer_conf:
  # 优化方法，支持Adam、AdamW、SGD
  optimizer: 'Adam'
  # 初始学习率的大小
  learning_rate: 0.001
  weight_decay: 1e-6

model_conf:
  embd_dim: 192
  channels: 512

train_conf:
  # 训练的轮数
  max_epoch: 30
  log_interval: 100

# 所使用的模型
use_model: 'ecapa_tdnn'