他们在设计这个模式时就定好了文字转WAV音频