他也确定了全部用实景文字转WAV音频