它们可以自主的听从命令文字转WAV音频