为什么考虑地理文字转WAV音频