当时是被动的施展文字转WAV音频