但目前获得认可最多的说法是文字转WAV音频