提取时间被设定在了半秒钟之后文字转WAV音频