我倒觉得……用某种持续存在的被动技能来解释更合理文字转WAV音频