因为他们没有绝对的把握文字转WAV音频