因为它知道文字转WAV音频