从一开始他便大概猜到文字转WAV音频