我不是指单纯的口头支持文字转WAV音频