彼此之间的训练强度是不太一样的文字转WAV音频