而是再次把注意力文字转WAV音频