也就是说他们需要从原本每天就很辛苦的训练中挤出时间学习其他的东西文字转WAV音频