这判定方法其实是有些模糊的文字转WAV音频