他们只是听从命令文字转WAV音频