所以目前是个理想化的基本框架文字转WAV音频