而且按照一般人的推理文字转WAV音频