所以他依然是在练体四层文字转WAV音频