网民们能通过四维合成影像看见会场内所有人的举动文字转WAV音频