他们的定位就很简单了文字转WAV音频