他本来有点担心对方问的问题是建立在某种虚拟世界观上的文字转WAV音频