声音转换技术的核心原理与应用场景
SoVITS(SoftVC VITS Singing Voice Conversion)是一种基于VITS架构的先进声音转换技术,能够将一个人的声音转换为另一个人的声音,同时保持语音内容的完整性和自然度。
基于深度学习的高质量声音转换效果
支持训练和转换多个不同的声音
可调整转换强度等多种参数
使用Hubert模型提取语音特征
基于VITS的声码器合成语音
将源声音特征映射到目标声音
避坑核心前提,确保后续操作顺利进行
Miniconda用于创建独立虚拟环境,避免Python版本/依赖冲突:
将项目文件复制到合适的位置:
选择以下任一方式启动命令行环境:
确保命令行前缀显示 (base),表示默认环境已激活
版本兼容关键,按步骤执行避免依赖冲突
在Anaconda Prompt中,先切换到so-vits-svc根目录:
执行后,命令行前缀应显示 (base) D:\python\Plugin\SoVITS\so-vits-svc>
创建指定Python版本的虚拟环境:
激活成功后,命令行前缀会从 (base) 变为 (so-vits-3.9)
按顺序执行以下命令,使用清华源加速:
根据是否有NVIDIA显卡选择对应版本:
执行以下命令,若无报错则依赖安装成功:
训练效果关键,数据质量直接决定克隆效果
备份并修改config.json文件:
确保说话人名称与数据文件夹名完全一致
为避免旧数据干扰新训练:
按以下结构存放音频文件:
每个说话人至少3分钟音频,10个以上音频文件
按顺序执行,避免跳过步骤
将音频统一重采样为44100Hz:
执行成功后,检查dataset/44k/是否包含对应说话人文件夹
生成train.txt和val.txt文件:
作用:记录每个音频文件的路径和对应说话人序号
提取Hubert特征和F0音高:
执行训练命令:
测试声音克隆效果
将需要克隆的"源音频"处理为WAV单声道44100Hz,放入so-vits-svc\raw\目录
克隆后的音频会自动保存到so-vits-svc\results\目录
训练好的模型文件路径,选择最新高步模型
训练时使用的配置文件,自动生成与模型匹配
需要克隆的源音频文件路径
目标说话人名称,与config.json中spk字段一致
音色转换强度,0=纯目标声线,0.5=混合源声线
避坑汇总,解决使用过程中的常见问题
可能原因:Miniconda未添加到PATH环境变量
C:\ProgramData\miniconda3 和 C:\ProgramData\miniconda3\Scripts可能原因:数据文件夹名与config.json中spk名称不一致
preprocess_flist_config.py 生成训练列表可能原因:GPU显存不足
可能原因:模型路径错误或未训练到对应步数
可能原因:训练数据质量差或训练步数不足