显然是没有把他们当做是人文字转WAV音频