模拟的是一个中等的城市文字转WAV音频