能够听懂简单的人言文字转WAV音频