是依据当时的环境所置文字转WAV音频