他们本来也没法在要求太多文字转WAV音频