最后达成的依然是一份阶梯式分成协议文字转WAV音频