就可以看出他们两者为何不同的选择了文字转WAV音频