如果是第一种模式的话文字转WAV音频