但他们更愿意相信是依靠外物文字转WAV音频