我估计他采用了第三方定位文字转WAV音频