我们现在需要做的是将它跟现实世界互联起来文字转WAV音频