他用这两秒之间的所做作为文字转WAV音频