就是双方的缓冲区文字转WAV音频