这个想法的产生是在拍摄文字转WAV音频