主要是从两个人身上得来的文字转WAV音频