1/configs/ecapa_tdnn.yml

55 lines
1.3 KiB
YAML
Raw Normal View History

2025-04-18 19:56:58 +08:00
# 数据集参数
dataset_conf:
# 训练的批量大小
batch_size: 256
# 说话人数量,即分类大小
num_speakers: 3242
# 读取数据的线程数量
num_workers: 12
# 过滤最短的音频长度
min_duration: 0.5
# 最长的音频长度,大于这个长度会裁剪掉
max_duration: 6
# 是否裁剪静音片段
do_vad: False
# 音频的采样率
sample_rate: 16000
# 是否对音频进行音量归一化
use_dB_normalization: False
# 对音频进行音量归一化的音量分贝值
target_dB: -20
# 训练数据的数据列表路径
train_list: 'dataset/train_list.txt'
# 测试数据的数据列表路径
test_list: 'dataset/test_list.txt'
# 标签列表
label_list_path: 'dataset/label_list.txt'
# 数据预处理参数
preprocess_conf:
# 音频预处理方法支持MelSpectrogram、Spectrogram、MFCC、Fbank
feature_method: 'Fbank'
feature_conf:
sample_frequency: 16000
num_mel_bins: 80
optimizer_conf:
# 优化方法支持Adam、AdamW、SGD
optimizer: 'Adam'
# 初始学习率的大小
learning_rate: 0.001
weight_decay: 1e-6
model_conf:
embd_dim: 192
channels: 512
train_conf:
# 训练的轮数
max_epoch: 30
log_interval: 100
# 所使用的模型
use_model: 'ecapa_tdnn'