我觉得他们是要控制全局文字转WAV音频