而且局限于凡间视角文字转WAV音频