这样也可以粗略估算一下其他人的水准文字转WAV音频