当时主要是被主持人的谈话节奏给引偏了文字转WAV音频