所以他也没办法做出准确判断文字转WAV音频