几何坐标等因素全都考虑进去了……可仍然没有什么头绪文字转WAV音频