最终反而会被认为文字转WAV音频