他用的是发问的口气文字转WAV音频