IndexTTS：B站推出的文本转语音模型，支持拼音纠正汉字发音！

IndexTTS 是B站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了GPT 风格的生成技术，能将文本高效转化为自然流畅的语音。IndexTTS 的优势是对中文文本的处理能力支持拼音纠正汉字发音，可通过标点符号精准控制停顿，有效解决了多音字和长尾字符的发音问题。采用混合建模方法，结合汉字和拼音，优化语音生成效果。在性能方面，IndexTTS 的字词错误率(WER)仅为1.3%，扬声器相似性(SS)达到 0.776，主观音质评分(MOS)为 4.01，表现出色。使用大量数据进行训练，包括 2.5 万小时的中文音频和 9000 小时的英文音频,确保了音质和音色的高质量。