就是训练的时候在优秀文字转WAV音频