并不能完美的实现我们所要求能够完全拟真的面对面通话请求文字转WAV音频