恐怕还是后者居多文字转WAV音频