在这个过程中也会耗费巨额的资源文字转WAV音频