但也能模拟出三四分规模了文字转WAV音频