之前的表现只不过是文字转WAV音频