因为他们实在是无法分辨文字转WAV音频