F5-TTS 部署使用

文档

F5-TTS 部署使用

一、F5-TTS介绍

特点：基于E2-TTS改进，2秒音频即可复刻音色，推理速度优于阿里 CosyVoice，支持多音色克隆和情绪风格调整（如Shouting）。
部署体验：通过ModelScope可在线测试，本地部署需Hugging Face模型下载，显存占用较低，适合生产环境。 3。适用场景：有声读物、多角色播客。项目地址：GitHub

二、mac 上安装部署

下载代码

git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS
# git submodule update --init --recursive  # (optional, if need > bigvgan)
pip install -e .

启动

# Launch a Gradio app (web interface)
f5-tts_infer-gradio

# Specify the port/host
f5-tts_infer-gradio --port 7860 --host 0.0.0.0

# Launch a share link
f5-tts_infer-gradio --share

我们使用 webui 来启动使用f5-tts，使用"f5-tts_infer-gradio"启动后如下：

(base) helightxu•~/F5-TTS(main)» f5-tts_infer-gradio 
The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.
0it [00:00, ?it/s]
Download Vocos from huggingface charactr/vocos-mel-24khz

vocab :  /Users/helightxu/F5-TTS/src/f5_tts/infer/examples/vocab.txt
token :  custom
model :  /Users/helightxu/.cache/huggingface/hub/models--SWivid--F5-TTS/snapshots/84e5a410d9cead4de2f847e7c9369a6440bdfaca/F5TTS_v1_Base/model_1250000.safetensors

/opt/anaconda3/lib/python3.12/site-packages/gradio/components/chatbot.py:282: UserWarning: You have not specified a value for the `type` parameter. Defaulting to the 'tuples' format for chatbot messages, but this is deprecated and will be removed in a future version of Gradio. Please set type='messages' instead, which uses openai-style dictionaries with 'role' and 'content' keys.
  warnings.warn(
Starting app...
* Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.

启动后界面如下：

三、基本使用

F5-TTS的基本使用非常简单，通过WebUI界面可以轻松实现语音合成。以下是基本使用步骤：

1. 文本输入

在WebUI界面的"Text"文本框中输入您想要转换为语音的文本内容。F5-TTS支持中英文混合输入，可以处理较长的文本段落。

2. 参考音频上传

点击"Reference Audio"下的"Upload Audio"按钮上传参考音频
参考音频应为清晰的人声，长度建议在2-10秒之间
支持常见的音频格式如WAV、MP3等
音频质量越高，克隆效果越好

3. 参数调整

F5-TTS提供了多种参数可以调整以获得最佳效果：

Speed：调整语音速度，默认为1.0，值越大语速越快
Pitch：调整音高，默认为0，可以提高或降低音调
Energy：调整语音能量/音量，默认为1.0
Emotion：选择情感风格，如Normal（正常）、Happy（开心）、Sad（悲伤）、Angry（愤怒）等
Emotion Strength：调整情感强度，值越大情感表现越明显

4. 生成语音

调整好参数后，点击"Generate"按钮开始生成语音。生成过程会显示进度条，完成后会自动播放生成的语音。

5. 批量处理

如果需要处理大量文本，可以使用批处理功能：

在"Batch Processing"选项卡中上传包含多行文本的TXT文件
设置输出目录
点击"Process Batch"开始批量生成

6. 保存和导出

生成的语音可以通过界面上的下载按钮保存为WAV格式
也可以直接复制生成的音频链接分享给他人

高级技巧

混合音色：上传多个参考音频可以混合不同的音色特征
长文本处理：对于较长的文本，建议按自然段落分割处理，效果更佳
音频后处理：生成的音频可以通过其他工具进行降噪、均衡等后期处理
提示词优化：在文本中添加适当的标点和语气词可以使生成的语音更自然

四、总结

F5-TTS的优势在于仅需极短的参考音频即可实现高质量的语音克隆，非常适合个性化语音内容的创作。

F5-TTS作为一款强大的语音合成工具，具有以下突出优势：

低门槛高效能：仅需2秒参考音频即可精准复刻音色，技术门槛低但效果出众
资源占用小：显存占用较低，适合在普通消费级硬件上运行
多样化调整：支持速度、音高、情感等多维度参数调整，满足不同场景需求
中英双语支持：对中英文混合文本有良好支持，发音自然流畅
批量处理能力：提供批处理功能，适合大规模内容生产

无论是个人创作者还是专业内容团队，F5-TTS都能以简单直观的操作流程，快速实现高质量的语音合成，为有声内容创作提供强有力的工具支持。相比商业TTS服务，F5-TTS在保持高质量输出的同时，提供了更灵活的本地部署选项和更丰富的个性化调整能力。

最后更新于 April 23, 2025

VSCode + CLine + Claude 3.7 进行开发 AI和大模型学习实践