他们以前并没有承受相当的训练文字转WAV音频