按照常人的思路肯定会加重文字转WAV音频