但是在夜间从区别并不明显的一堆建筑里准确的区分出其中一个来文字转WAV音频