如果之前的推测结果没错的话文字转WAV音频