因为他没有绝对把握文字转WAV音频