这算是最基本的分头审讯文字转WAV音频