此时毕竟也没有很精细的处理环境文字转WAV音频