他们作为中间人文字转WAV音频