他们只需要能完成目标任务文字转WAV音频