原因之一是之前5个发言者一些单词的口语发音不标准文字转WAV音频