应该有着六层的把握文字转WAV音频