问题是两个人谁会率先的开口文字转WAV音频