而从高度和位置来判断文字转WAV音频