他们可能很难离开文字转WAV音频