所以他们现在最关心的是结果文字转WAV音频