必须通过时间和大量的实地拍摄来积累文字转WAV音频