还是用口传文字转WAV音频