重点放在两个人类身上文字转WAV音频