他们估计也很难应付文字转WAV音频