MediaCraft 音视频工具

产品简介

MediaCraft 音视频工具是一款基于 PyQt5 + FFmpeg 开发的一站式音视频处理工具，提供图形化界面操作，让复杂的音视频处理变得简单易用。支持15大核心功能模块，满足从基础编辑到高级AI处理的各类需求。

版本: 1.0.0 | 开发者: 海南仙岛 | 官网: https://www.myzhenai.com.cn/

下载与安装

百度网盘下载 MediaCraft 提取码：79uu

夸克网盘下载 MediaCraft 提取码：WqYX

天翼网盘下载 MediaCraft 访问码：zw01

体积提示：如果你不使用以下高级功能，可不下载或删除对应插件目录以节省空间：
- RTVC（实时语音克隆）→ 目录：MediaCraft\Plugin\RTVC
- SoVITS（高质量声音克隆）→ 目录：MediaCraft\Plugin\SoVITS
- Whisper（AI 字幕识别）→ 目录：MediaCraft\Plugin\whisper

保留核心程序即可使用大部分常规功能（转码、合并、水印、截图、分割、提取音频/字幕等）。

安装建议：解压后直接运行程序；如需使用 AI/语音克隆功能，再按需补充对应 Plugin 子目录。

核心功能详解

1. 工具设置

FFmpeg 路径配置（自动检测系统环境变量或手动设置）
Whisper 路径配置（支持系统安装或Plugin目录）
Tesseract-OCR 路径配置（用于硬字幕OCR提取）
字体管理（自动加载系统字体和程序fonts目录字体）
音频设备检测（自动识别系统音频设备和麦克风）

统一管理所有依赖组件的路径配置，支持自动检测和手动设置，确保各功能模块正常运行。程序会自动检测系统环境变量中的组件路径，也支持手动浏览设置。音频设备会自动检测并列出可用设备。

适用场景：系统配置、环境设置、组件管理

2. 屏幕录制

全屏/区域录制
系统声音/麦克风录制
鼠标指针录制
超高清晰度录制
多种格式输出

支持全屏录制或自定义区域录制，支持录制系统声音、录制麦克风声音，支持录制鼠标指针。可设置帧率（FPS）、编码质量（超快/快速/中等/慢速）、视频比特率（5000k-15000k或自定义）。支持暂停/继续/停止操作，默认保存到桌面。需要安装Screen Capturer Recorder用于屏幕捕获，VB-CABLE用于音频捕获。

适用场景：培训教程录制、游戏录播、软件演示、在线教学

3. 视频水印

图片水印和文字水印
自定义字体和颜色
位置大小调整
透明度设置
批量处理

支持图片水印和文字水印两种模式。图片水印支持PNG/JPG格式，可设置宽度、高度和透明度（0-100%）。文字水印支持自定义字体（系统字体+程序fonts目录字体）、字号、颜色（HEX格式）、描边颜色、透明度。支持设置水印位置（水平/垂直偏移），支持批量处理多个视频文件，支持拖拽添加文件，支持覆盖已存在输出文件。

适用场景：版权保护、品牌宣传、视频标识、防盗用

4. 视频字幕

硬字幕和软字幕
自定义字体和颜色
自定义字幕位置
多语言支持
批量处理

支持硬字幕和软字幕两种模式。硬字幕嵌入视频（永久生效），支持SRT格式字幕，可设置字幕语言（中文/英文/日语/韩语/其他）、显示位置（底部居中/中部居中/顶部居中/底部靠左/底部靠右）、字号、字体、颜色、描边颜色和宽度、背景色和透明度。自动检测同目录同名字幕文件（支持.srt/.ass/.ssa格式），支持批量处理。软字幕作为外挂轨道（可开关），不重新编码视频，支持设置轨道名称、语言代码（ISO 639-1）、编码格式（mov_text/subrip/ass），适用于MP4/MKV等容器。

适用场景：多语言视频、无障碍访问、教学视频、宣传片制作

5. 视频合并

批量视频合并
批量音频合并
格式兼容检测
顺序调整

支持批量视频合并成一个视频文件，支持批量音频合并成一个视频文件。程序会自动检测文件格式兼容性，支持调整文件合并顺序，支持拖拽调整顺序。

适用场景：分集视频合并、音频专辑制作、长视频制作

6. 视频转码

批量格式转换
自定义编码器
质量调整
硬件加速

支持批量视频重新编码转换视频格式，支持自定义视频编码器（如H.264/H.265）、音频编码器、视频分辨率、比特率等参数。支持硬件加速（如果系统支持）。

适用场景：格式转换、压缩优化、兼容性处理、批量处理

7. 提取字幕

软字幕提取
硬字幕 OCR 识别
多格式输出
批量处理

支持批量提取视频中的字幕。对于软字幕（外挂字幕轨道），可直接提取；对于硬字幕（嵌入视频的文字），使用Tesseract-OCR进行OCR识别提取文字。支持多种字幕格式输出（SRT/ASS/VTT等），可批量处理无声音视频中的字幕提取。

适用场景：无声视频字幕提取、多语言字幕制作、视频内容分析

8. 视频截图

单张/批量截图
自定义截图张数
随机截图
超高质量保存

支持单张截图或批量截图（一次截取3张/6张/9张），支持自定义截图张数，支持随机截图或按时间点截图，支持设置截图时间点，支持多种图片格式输出（PNG/JPG/BMP），支持超高质量的截图。

适用场景：视频宣传、封面制作、内容预览、素材提取

9. 视频分割

按时间分割
按段数分割
批量分割
多格式支持

支持按时间分割（设置开始时间和结束时间）和按段数分割（将视频平均分成N段），支持批量分割，支持多种视频格式。

适用场景：影片宣传、短视频制作、内容分段、素材整理

10. 图片转视频

多图制作视频
时长设置
转场效果
背景音乐

支持将多张图片制作成指定编码的视频文件，支持设置每张图片显示时长，支持添加背景音乐，支持转场效果，支持设置视频编码参数。

适用场景：相册视频、产品展示、幻灯片制作、回忆录制作

11. 视频添加音乐

背景音乐添加
音量调节
淡入淡出
批量处理

支持单个视频和单个音频合并成一个视频，支持批量将某个音频添加到大部份视频，支持音量调节，支持淡入淡出效果，适用于添加视频文件头和视频文件尾等场景。

适用场景：片头片尾制作、背景音乐添加、音频替换、批量处理

12. 提取视频/音频

音频提取
视频流提取
多格式输出
批量处理

支持批量从视频文件中将视频和音频分离，支持批量提取视频中的背景音频，支持批量提取无声的视频（仅视频流），支持多种音频格式输出（MP3/WAV/FLAC等），支持多种视频格式输出。

适用场景：音频提取、视频分离、素材整理、格式转换

13. 媒体元数据修改

元数据修改
标题艺术家信息
批量修改
质量保持

支持批量修改视频和音频文件的元数据信息，包括标题、艺术家、专辑、年份、描述等信息。修改后的元数据会显示在文件属性中。

适用场景：文件信息整理、版权信息添加、批量标签管理

14. Whisper 生成字幕

AI 自动生成
多语言识别
多模型选择
字幕翻译
批量处理

支持使用Whisper AI模型批量从视频中提取文字字幕。支持多种模型选择（tiny/base/small/medium/large），平衡速度和精度。支持多语言识别（中文简体/繁体、英文、日语、韩语、法语、德语、西班牙语等），支持自动检测语言。支持字幕翻译功能，可将识别结果翻译成其他语言。支持多种字幕格式输出（SRT/ASS/VTT），自动命名规则：[原文件名]_[语言代码].格式。程序会自动检测Whisper路径和模型文件（系统安装或Plugin/whisper目录）。

适用场景：自动字幕生成、多语言翻译、内容转录、无障碍访问

15. 声音克隆模型

RTVC 声音克隆
SoVITS 声音克隆
音调语速调节
说话人自动识别
批量处理

程序内置了RTVC和SoVITS两个声音克隆模型，支持音频训练并生成克隆音频。RTVC支持实时语音转换和文本转语音（目前仅支持英文），需要输入文本和目标参考音频。SoVITS支持高质量音频克隆和多语言支持，需要输入源音频和目标参考音频，自动识别配置文件中的说话人列表。程序会自动检测模型完整性和Python环境。

适用场景：声音合成、语音转换、个性化配音、内容创作、多语言配音

系统要求

必需组件

1. FFmpeg - 音视频处理核心引擎

下载地址: https://ffmpeg.org/download.html

安装后添加到系统环境变量，或放在程序同目录下

2. Python 环境 - 运行环境（如需源码运行/扩展）

Python 3.9 或更高版本 | 安装 PyQt5: pip install PyQt5

可选组件

1. OpenAI Whisper - AI 字幕生成

安装命令: pip install openai-whisper

2. Tesseract-OCR - 文字识别

用于硬字幕 OCR 提取功能。下载: Tesseract 官网。程序会自动检测 C:\Program Files\Tesseract-OCR\tesseract.exe 等路径。

3. 声音克隆模型 - 高级功能

RTVC 或 SoVITS 模型文件放置在 Plugin 目录下（详见下方目录结构）。

目录结构

程序目录

MediaCraft/ ├── ffmpeg.exe # FFmpeg 可执行文件（可选） ├── whisper.exe # Whisper 可执行文件（可选） ├── tesseract.exe # Tesseract 可执行文件（可选） ├── fonts/ # 字体文件目录 │ ├── *.ttf # 自定义字体文件 ├── Plugin/ # 插件目录 │ ├── RTVC/ # RTVC 声音克隆插件 │ │ └── Real-Time-Voice-Cloning/ │ │ ├── pretrained_models/ # 新结构（优先） │ │ │ ├── encoder/encoder.pt │ │ │ ├── synthesizer/synthesizer.pt │ │ │ └── vocoder/vocoder.pt │ │ └── saved_models/default/ # 旧结构（兼容） │ ├── SoVITS/ # SoVITS 声音克隆插件 │ │ └── so-vits-svc/ │ │ ├── configs/config.json │ │ ├── logs/44k/ # 训练模型 │ │ ├── trained/ # 训练完成模型 │ │ ├── pretrain/ # 预训练模型 │ │ ├── inference_main.py │ │ ├── raw/ # 输入音频 │ │ └── results/ # 输出音频 │ └── whisper/ # Whisper 插件目录 │ ├── whisper.exe │ └── models/ # 模型文件 ├── img/ # 图片资源目录 └── version.json # 版本信息文件

fonts 目录说明

custom_fonts/ 或 fonts/：存放用户自定义字体文件（TTF、OTF、WOFF），用于视频字幕和水印功能。程序会自动检测和验证。

Plugin 目录说明

RTVC/：实时语音转换插件，需 encoder.pt、synthesizer.pt、vocoder.pt，支持新结构（pretrained_models）与旧结构（saved_models/default）。
SoVITS/：SoVITS 声音克隆插件，需 config.json、G_*.pth、D_*.pth 及 pretrain 等，自动解析说话人列表，推荐使用 conda 独立环境。
whisper/：Whisper 插件，可执行文件与模型（tiny/base/small/medium/large）用于 AI 字幕生成。

使用说明

首次使用

确保已安装 FFmpeg 并添加到系统环境变量
运行程序，在「工具设置」页面检查组件状态
根据需要安装 Whisper 和 Tesseract
配置各组件路径（如需要）
将声音克隆模型放置在 Plugin 目录下

基本操作流程

选择左侧功能页面
添加要处理的文件（支持拖拽）
设置处理参数
点击执行按钮开始处理
查看操作日志了解处理状态

批量处理与高级功能

大部分功能支持批量处理、拖拽添加、调整顺序；支持 AI 字幕生成（Whisper）、声音克隆（RTVC/SoVITS）、OCR 字幕提取、智能路径检测。所有操作会记录在操作日志中，支持清空与实时查看。

注意事项

文件路径：避免使用包含特殊字符的路径
文件格式：确保输入文件格式正确且未损坏
磁盘空间：处理大文件时确保有足够空间
处理时间：复杂操作可能较久，请耐心等待
模型文件：声音克隆功能需完整模型文件；建议 Windows 10 及以上使用

常见问题

Q: 程序提示找不到FFmpeg怎么办？

A: 请确保FFmpeg已正确安装并添加到系统环境变量，或将ffmpeg.exe放在程序同目录下。

Q: SoVITS说话人下拉框为空怎么办？

A: 检查配置文件config.json是否包含说话人信息，支持格式："spk": {"说话人1": 0, "说话人2": 1}

Q: Whisper 模型检测失败怎么办？

A: 程序会按以下顺序检测：系统环境变量中的 whisper；Plugin/whisper 目录下的 whisper.exe。请确保模型文件在对应的 models 目录下。

Q: RTVC 模型检测失败怎么办？

A: 确保模型文件放在 Plugin/RTVC/Real-Time-Voice-Cloning/ 下，且 encoder.pt、synthesizer.pt、vocoder.pt 完整。支持新结构（pretrained_models/）与旧结构（saved_models/default/），程序会优先检测新结构。

Q: SoVITS 模型检测失败怎么办？

A: 确保目录为 Plugin/SoVITS/so-vits-svc/，检查 logs/44k 或 trained 下的 G_*.pth、D_*.pth，以及 pretrain 下的预训练文件；确保 configs/config.json 存在且包含说话人信息（spk 或 spk2id）。

Q: RTVC只支持英文吗？

A: 是的，当前版本的RTVC仅支持英文文本输入。如果需要多语言支持，建议使用SoVITS模型。

Q: SoVITS 处理时提示 "The name you entered is not in the speaker list!"

A: 表示所选说话人不在配置文件中，请从说话人下拉框中选择与 config.json 中名称完全一致的选项。

Q: SoVITS 使用专用 Python 环境时出现模块缺失错误

A: 程序会优先使用包含 "so-vits" 的 conda 环境。请在专用环境中安装依赖：pip install torch torchaudio soundfile librosa numpy scipy 或使用项目的 requirements.txt。

Q: 声音克隆处理时间很长正常吗？

A: 正常。AI 模型需大量计算，SoVITS 比 RTVC 更耗时但质量更高；使用 CPU 会比 GPU 慢很多。建议处理过程中勿关闭程序，可通过日志查看进度。

Q: 批量处理时程序卡死怎么办？

A: 请检查文件大小和磁盘空间，大文件处理需要更多时间和资源。

技术支持

官方网站: https://www.myzhenai.com.cn/

技术博客: https://jiayu.mybabya.com/

本文档随程序版本更新，请以最新版本为准。