LJspeech数据集介绍

2022-06-27

LJspeech数据集是一个公共领域的语音数据集，包含13,100个单一发声者朗读非小说书籍片段的短音频剪辑。每个音频剪辑都提供了相应的转录文本，这些音频剪辑的长度从1秒到10秒不等，总时长约为24小时。

数据集内容

该数据集的文本摘自1884年至1964年之间出版的7本非小说书籍，所有文本都属于公共领域。音频由LibriVox项目在2016-17年录制，也属于公共领域。LibriVox是一个致力于将公共领域的书籍转录为音频的项目。

LJspeech数据集广泛应用于语音合成、语音识别等领域的研究和开发中。它为研究人员和开发者提供了一个高质量的语音数据资源，有助于提升语音处理技术的性能和效果。

该数据集可以通过百度网盘进行高速下载。提取码为：jkre。

希望该数据集能为您的研究和开发工作提供帮助！