拍摄场景里的纵深面实际上是物理上的垂直面――这样一来文字转WAV音频