最终几乎是重新写的文字转WAV音频