超强的文本转语音模型ChatTTS

2022-11-10

超强的文本转语音模型ChatTTS

项目简介

ChatTTS是一个专为对话场景设计的文本转语音模型,支持多人同时对话,适用于多种场景,如大型语言模型(LLM)助手的对话任务、视频配音等。该模型支持中文和英文两种语言,最大的模型使用了超过10万小时的中英文数据进行训练,功能强大。

项目亮点

  • 对话式优化:通过优化语音合成过程,实现了更加自然和流畅的语音输出,特别适用于模拟真实对话场景的应用,如聊天机器人和虚拟助手。
  • 多说话人支持:不仅能够提供单一声音的语音输出,还支持多种不同的声音选项,使得对话体验更加丰富和个性化。
  • 韵律特征预测:能够精准预测并控制语音中的韵律特征,包括笑声、停顿和插入词等细微的语音元素。
  • 个性化调整:允许用户根据对话的上下文和情感需求,对语音的韵律进行个性化调整,从而使得语音输出更加贴近真实人类的交流方式。
  • 超越性韵律:在韵律的表现上,ChatTTS超越了大多数现有的开源文本转语音模型,提供了更加自然和富有表现力的语音。
  • 预训练模型:提供了预训练模型,为研究人员和开发者提供了一个强大的起点,以便他们可以在此基础上进行定制和优化。

安装使用

ChatTTS支持多种使用方式,包括在Python代码中以库的形式引入使用。以下是一个简单的示例代码:

import ChatTTS
from IPython.display import Audio

chat = ChatTTS.Chat()
chat.load_models(compile=False)  # 设置为True以获得更快速度
texts = ["在这里输入你的文本"]
wavs = chat.infer(texts, use_decoder=True)
torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)

一键启动包

ChatTTS还提供了一个简单的本地网页界面,用户可以直接在网页上使用ChatTTS将文字合成为语音。支持中英文、数字混杂,并提供API接口。

安装部署

从项目仓库下载zip压缩包,解压后双击app.exe即可使用。

小结

ChatTTS不仅提升了文本转语音技术的实用性,也为对话式交互带来了更加真实和生动的体验。通过ChatTTS,用户可以轻松创建高度定制化的语音交互系统,适用于多种应用场景。

下载链接

超强的文本转语音模型ChatTTS