FairyMux 音视频工具
产品简介
FairyMux 是一款基于 PyQt5 + FFmpeg 的一站式音视频处理工具,支持批量处理、字幕、录屏、转码、提取、AI 字幕、声音克隆等。
版本: 1.05 | 开发者: 海南仙岛 | 官网: https://www.myzhenai.com.cn/
下载与安装
体积优化提示:不使用高级功能时,可不附带 RTVC / SoVITS / Whisper 大模型目录,先使用核心功能即可。
Windows 与 Linux 使用方法(融合)
Windows 使用
- 系统建议:Windows 10/11(64位)
- 若使用外置 Qt 方案:
dlls 必须与 exe 同目录
- 首次进入“工具设置”页检查 FFmpeg / Whisper / Tesseract 路径
Linux 使用
- 建议发行版:Debian / Ubuntu / Deepin
- 先安装 FFmpeg:
sudo apt install ffmpeg
- X11 下录屏兼容性高于 Wayland
全部功能说明
| 模块 | 功能描述 | 典型用途 |
| 工具设置 | 统一管理 FFmpeg/Whisper/Tesseract 路径,自动检测环境 | 安装后首次配置 |
| 屏幕录制 | 全屏/区域/窗口录制,支持音频方案 | 教程录制、演示视频 |
| 视频水印 | 文字/图片水印,位置、透明度、字体可调 | 版权保护、品牌标识 |
| 视频字幕 | 硬字幕/软字幕处理,批量处理 | 多语言视频制作 |
| 视频合并 | 多文件按顺序拼接 | 分段素材合并 |
| 视频转码 | 编码、格式、码率、分辨率转换 | 兼容性与压缩优化 |
| 提取字幕 | 软字幕轨提取 + 硬字幕 OCR 提取 | 字幕回收与生成 |
| 视频截图 | 按规则抓帧、批量截图 | 封面图与预览图 |
| 视频分割 | 按时长或时间段切割 | 短视频切片 |
| 图片转视频 | 图片序列合成视频 | 相册视频、图文展示 |
| 视频添加音乐 | 混音/替换背景音,批量处理 | 配乐、片头片尾 |
| 提取视频/音频 | 分离音视频轨道 | 素材整理 |
| 媒体元数据修改 | 编辑标题、作者、版权等信息 | 归档与版权标注 |
| Whisper 生成字幕 | AI 语音识别,支持多语言模型 | 自动字幕生产 |
| 声音克隆模型 | RTVC / SoVITS 相关流程 | 声音生成/转换 |
| 关于 | 版本信息、检查更新、捐助二维码 | 版本确认与更新入口 |
目录结构示例
FairyMux/
├── ffmpeg.exe # FFmpeg 可执行文件(可选)
├── whisper.exe # Whisper 可执行文件(可选)
├── tesseract.exe # Tesseract 可执行文件(可选)
├── fonts/ # 字体文件目录
│ ├── *.ttf # 自定义字体文件
├── Plugin/ # 插件目录
│ ├── RTVC/ # RTVC 声音克隆插件
│ │ └── Real-Time-Voice-Cloning/
│ │ ├── pretrained_models/ # 新结构(优先)
│ │ │ ├── encoder/encoder.pt
│ │ │ ├── synthesizer/synthesizer.pt
│ │ │ └── vocoder/vocoder.pt
│ │ └── saved_models/default/ # 旧结构(兼容)
│ ├── SoVITS/ # SoVITS 声音克隆插件
│ │ └── so-vits-svc/
│ │ ├── configs/config.json
│ │ ├── logs/44k/ # 训练模型
│ │ ├── trained/ # 训练完成模型
│ │ ├── pretrain/ # 预训练模型
│ │ ├── inference_main.py
│ │ ├── raw/ # 输入音频
│ │ └── results/ # 输出音频
│ └── whisper/ # Whisper 插件目录
│ ├── whisper.exe
│ └── models/ # 模型文件
├── img/ # 图片资源目录
└── version.json # 版本信息文件
常见问题
Q: 程序提示找不到 FFmpeg 怎么办?
A: 请确保 FFmpeg 已正确安装并添加到系统环境变量,或将 ffmpeg.exe 放在程序同目录下。
Q: SoVITS 说话人下拉框为空怎么办?
A: 检查配置文件 config.json 是否包含说话人信息,支持格式:"spk": {"说话人1": 0, "说话人2": 1}。
Q: Whisper 模型检测失败怎么办?
A: 程序会按系统环境变量 whisper 和 Plugin/whisper 目录检测,请确保模型文件在 models 目录下。
Q: RTVC 模型检测失败怎么办?
A: 确保模型放在 Plugin/RTVC/Real-Time-Voice-Cloning 下,且 encoder.pt、synthesizer.pt、vocoder.pt 完整。
Q: SoVITS 模型检测失败怎么办?
A: 确保目录为 Plugin/SoVITS/so-vits-svc,检查 logs/44k 或 trained 下模型文件,并确认 configs/config.json 存在。
Q: RTVC 只支持英文吗?
A: 是的,当前 RTVC 主要用于英文文本输入;多语言建议使用 SoVITS。
Q: SoVITS 提示 "The name you entered is not in the speaker list!"?
A: 请从说话人下拉框中选择与 config.json 名称完全一致的项。
Q: SoVITS 专用环境出现模块缺失怎么办?
A: 在专用环境安装依赖:pip install torch torchaudio soundfile librosa numpy scipy。
Q: 声音克隆处理时间很长正常吗?
A: 正常。AI 模型计算量大,SoVITS 通常比 RTVC 更慢,CPU 会明显慢于 GPU。
Q: 批量处理时程序像卡住怎么办?
A: 请检查文件大小、磁盘空间与系统资源占用,大文件处理耗时会更久。
技术支持
官方网站: https://www.myzhenai.com.cn/
技术博客: https://jiayu.mybabya.com/
© 2025-2026 版权所有:海南仙岛 | JiaYu BLog