他们只关注文字转WAV音频