只能听声音去判断文字转WAV音频