1/configs/ecapa_tdnn.yml
2025-04-18 19:56:58 +08:00

55 lines
1.3 KiB
YAML
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 数据集参数
dataset_conf:
# 训练的批量大小
batch_size: 256
# 说话人数量,即分类大小
num_speakers: 3242
# 读取数据的线程数量
num_workers: 12
# 过滤最短的音频长度
min_duration: 0.5
# 最长的音频长度,大于这个长度会裁剪掉
max_duration: 6
# 是否裁剪静音片段
do_vad: False
# 音频的采样率
sample_rate: 16000
# 是否对音频进行音量归一化
use_dB_normalization: False
# 对音频进行音量归一化的音量分贝值
target_dB: -20
# 训练数据的数据列表路径
train_list: 'dataset/train_list.txt'
# 测试数据的数据列表路径
test_list: 'dataset/test_list.txt'
# 标签列表
label_list_path: 'dataset/label_list.txt'
# 数据预处理参数
preprocess_conf:
# 音频预处理方法支持MelSpectrogram、Spectrogram、MFCC、Fbank
feature_method: 'Fbank'
feature_conf:
sample_frequency: 16000
num_mel_bins: 80
optimizer_conf:
# 优化方法支持Adam、AdamW、SGD
optimizer: 'Adam'
# 初始学习率的大小
learning_rate: 0.001
weight_decay: 1e-6
model_conf:
embd_dim: 192
channels: 512
train_conf:
# 训练的轮数
max_epoch: 30
log_interval: 100
# 所使用的模型
use_model: 'ecapa_tdnn'