我们至少要完成三幕文字转WAV音频