按照这些人的说话内容推测文字转WAV音频