所以最好的解决办法就是我们分开去不同的位置探索文字转WAV音频