最后终于得到了确切的位置文字转WAV音频