
IndexTTS 是B站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了GPT 风格的生成技术,能将文本高效转化为自然流畅的语音。IndexTTS 的优势是对中文文本的处理能力支持拼音纠正汉字发音,可通过标点符号精准控制停顿,有效解决了多音字和长尾字符的发音问题。 采用混合建模方法,结合汉字和拼音,优化语音生成效果。在性能方面,IndexTTS 的字词错误率(WER)仅为1.3%,扬声器相似性(SS)达到 0.776,主观音质评分(MOS)为 4.01,表现出色。使用大量数据进行训练,包括 2.5 万小时的中文音频和 9000 小时的英文音频,确保了音质和音色的高质量。
IndexTTS的主要功能:
拼音纠正与停顿控制:IndexTTS 在处理中文文本时,能通过拼音纠正汉字的发音,用标点符号在任意位置精准控制
停顿,语音输出更加自然流畅。
音质优化:引入了基于 Conformer 的条件编码器和 BigVGAN2 语音解码器,显著提高了音质和音色相似性,MOS
评分达到 4.01。
多语言支持:目前支持中文和英文,计划在未来扩展到更多语言。
GitHub地址:https://github.com/index-tts/index-tts