此时依然是核心文字转WAV音频