这些人看的就是场面文字转WAV音频