肯定只有非常简单短暂的记忆文字转WAV音频