他们的第一个想法就是跑文字转WAV音频