基本上每次的决策结果文字转WAV音频