但他明显可以感受到话语里的亲近文字转WAV音频