所以他在控制方面还是会有一些不精准文字转WAV音频