RTVC实时语音转换 完整使用指南

从安装配置到模型训练,从零开始掌握实时语音转换技术,打造属于你的AI语音克隆系统

RTVC技术概述

实时语音转换技术的核心原理与应用场景

RTVC实时AI语音转换工具

什么是RTVC?

RTVC(Real-Time Voice Conversion)是一种实时语音转换技术,能够将一个人的声音实时转换为另一个人的声音,同时保持语音内容的完整性和自然度。

实时处理

低延迟处理,支持实时语音转换

多 speaker 支持

支持训练和转换多个不同的声音

高度可定制

可调整音调、语速等多种参数

RTVC工作流程

1

语音分析

提取源语音的特征和内容信息

2

特征转换

将源特征映射到目标说话人特征

3

语音合成

生成目标说话人的语音波形

4

实时输出

低延迟输出转换后的语音

安装与配置

详细的环境搭建步骤,从依赖安装到系统配置

系统要求

Python 3.8 - 3.10
Windows/Linux/macOS
NVIDIA GPU (推荐)
8GB+ RAM
10GB+ 可用磁盘空间

依赖安装

pip install torch torchvision torchaudio
pip install -r requirements.txt
# 对于RTX30xx系列 pip install torch --index-url https://download.pytorch.org/whl/cu117

模型下载

HuBERT基础模型
预训练VITS模型
UVR5权重文件
RMVPE音高模型

详细安装步骤

1

安装Miniconda(轻量替代Anaconda)

Miniconda用于创建独立虚拟环境,避免Python版本/依赖冲突,推荐优先使用提供的安装包:

下载与安装:
  • • 下载路径:使用本地包 Plugin\Installation Package\Miniconda3-latest-Windows-x86_64.exe,或从Miniconda官网下载(选择「Windows 64-bit」版本)。
  • • 安装关键选项:必须勾选 “Add Miniconda3 to my PATH environment variable”(否则后续无法直接调用conda命令)。
  • • 安装路径建议默认(C:\ProgramData\miniconda3),避免中文、空格或特殊字符路径(如“D:\我的软件”会导致命令执行失败)。
  • • 其他选项保持默认,点击「Install」完成安装。
⚠️ 若忘记勾选“Add to PATH”:

需手动添加环境变量(右键「此电脑」→「属性」→「高级系统设置」→「环境变量」→ 在「系统变量-PATH」中添加 C:\ProgramData\miniconda3C:\ProgramData\miniconda3\Scripts),添加后需重启电脑生效。

2

环境准备

启动Anaconda Prompt(命令行环境),选择以下任一方式启动,确保命令行前缀显示 (base)(表示默认环境已激活):

启动Anaconda Prompt:
  • • 方式1(推荐):点击Windows开始菜单 → 找到「Anaconda (miniconda3)」文件夹 → 打开「Anaconda Prompt (miniconda3)」。
  • • 方式2(备用):按下Win + R输入cmd打开命令提示符,执行以下命令激活Miniconda:
%WINDIR%\System32\cmd.exe "/K" C:\ProgramData\miniconda3\Scripts\activate.bat C:\ProgramData\miniconda3

在Anaconda Prompt中,先切换到RTVC根目录(需替换为你的实际路径):

# 1. 切换到项目所在磁盘(例如D盘,若在E盘则输入E:)
D:
# 2. 进入源码目录(替换为你的实际路径,注意路径分隔符为\)
cd D:\python\Plugin\RTVC\Real-Time-Voice-Cloning

执行后,命令行前缀应显示 (base) D:\python\Plugin\RTVC\Real-Time-Voice-Cloning>,表示已进入目标目录。

创建并激活虚拟环境:

conda create -n rvc python=3.9
conda activate rvc
3

安装依赖包

安装项目所需的核心依赖包:

pip install sounddevice webrtcvad umap-learn numpy numba scipy matplotlib librosa pillow argparse pathlib tqdm Unidecode llvmlite torch torchvision torchaudio
4

安装PyTorch

根据系统配置安装对应的PyTorch版本,GPU用户需要安装CUDA版本:

# GPU版本 (推荐) pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
# CPU版本 (不推荐) pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
5

模型文件准备

模型文件已下载到本地,需按以下目录结构放置(以你的实际目录为例):

Real-Time-Voice-Cloning/ └── pretrained_models/ # 模型根目录 ├── encoder/ # 编码器目录 │ └── encoder.pt # 编码器模型文件 ├── synthesizer/ # 合成器目录 │ └── synthesizer.pt # 合成器模型文件 └── vocoder/ # 声码器目录 └── vocoder.pt # 声码器模型文件

确保上述路径和文件存在,否则会导致“找不到模型”错误。

6

启动程序

本项目无需安装WebUI,直接通过demo_toolbox.py(图形界面)或demo_cli.py(命令行)启动:

# 启动图形界面工具(推荐) python demo_toolbox.py
# 启动命令行工具(无界面) python demo_cli.py
注意事项:
  • • 若提示“找不到模型”,检查步骤5的目录结构是否正确。
  • • 首次启动可能需要加载模型,耗时1-2分钟,请耐心等待。
  • • 若启动失败,尝试以管理员身份运行Anaconda Prompt。

模型训练

从数据准备到模型训练的完整流程

AI克隆音色通话

训练前准备

音频数据要求

  • • 时长:推荐10-30分钟
  • • 格式:WAV或MP3
  • • 质量:清晰无杂音
  • • 采样率:16kHz或更高

硬件要求

  • • GPU:NVIDIA RTX 20xx/30xx/40xx系列
  • • VRAM:8GB+(推荐12GB+)
  • • CPU:4核心以上
  • • 内存:16GB+

训练流程

1

数据预处理

准备和预处理训练音频数据:

# 1. 将音频文件放入 dataset/your_model_name/wavs 目录
# 2. 运行数据预处理脚本
python tools/preprocess.py --model_name your_model_name
python tools/extract_features.py --model_name your_model_name
2

配置训练参数

修改configs/training.yaml文件设置训练参数:

model_name: "your_model_name"
batch_size: 8
epochs: 1000
learning_rate: 0.0001
save_every_epoch: 50
gpu: "0" # 使用的GPU编号
3

开始训练

运行训练脚本开始模型训练:

# 开始训练
python train.py --config configs/training.yaml

# 训练过程中可以通过TensorBoard查看进度
tensorboard --logdir logs/your_model_name
4

评估和优化

训练完成后评估模型性能并进行优化:

# 评估模型性能
python evaluate.py --model_name your_model_name

# 生成索引文件
python tools/build_index.py --model_name your_model_name

# 模型文件将保存在 logs/your_model_name 目录

关键参数

batch_size 8-32
epochs 500-2000
learning_rate 1e-4

训练时间

RTX 3090 4-6小时
RTX 3080 6-8小时
RTX 2080 8-12小时

常见问题

• 过拟合:减少训练轮数
• 显存不足:降低batch_size
• 音质不佳:增加训练数据

使用指南

如何使用训练好的模型进行实时语音转换

Toolbox使用(demo_toolbox.py)

加载参考语音

  1. 启动后点击"Browse"按钮,选择5-15秒的清晰人声音频(支持WAV/MP3)
  2. 无需麦克风:直接加载本地音频文件即可,无需录制
  3. 等待自动生成声音嵌入(约1-2秒)

生成转换语音

  1. 在右侧文本框输入想要合成的文字
  2. 点击"Synthesize and vocode"按钮
  3. 生成的语音会自动播放并保存到项目目录
实时语音转文字界面

命令行使用(demo_cli.py)

基础转换

# 基本语音转换 python demo_cli.py \ --reference_audio path/to/reference.wav \ --text "你想要合成的文本内容" \ --output output.wav
常用参数说明:
• --reference_audio: 参考语音文件路径(必填)
• --text: 要合成的文本内容(必填)
• --output: 输出文件路径(默认output.wav)
• --cpu: 强制使用CPU(默认自动检测GPU)

批量处理

# 批量转换(需提前准备文本列表文件) python demo_cli.py \ --reference_audio path/to/reference.wav \ --text_list path/to/texts.txt \ --output_dir output_folder
文本列表格式:
• texts.txt 中每行一个句子
• 输出文件会按序号命名(1.wav, 2.wav...)
• 支持中文、英文等多语言文本

实时变声配置

音频输入

选择合适的麦克风,建议使用头戴式耳机麦克风以避免回音

参数调整

根据实际效果调整音高、降噪和保护参数

音频输出

选择虚拟音频设备,以便在其他应用中使用变声效果

常见问题

使用过程中可能遇到的问题及解决方案