比如目标人物所在的区域文字转WAV音频