目前仅仅是能记住复杂的步伐文字转WAV音频