而是以训练时的种种表现为基准文字转WAV音频