就是靠着一次又一次的取舍换来的文字转WAV音频