即使是推理能力比较差的……二十次之内基本也猜出来了文字转WAV音频