它只能口头上先答应文字转WAV音频