他们还是按照原来的套路文字转WAV音频