的整个故事架构根本就是文字转WAV音频