所以他们做了一个最无奈的选择文字转WAV音频