而模特的状态应该是这样文字转WAV音频