这里面有个关键点・那就是在第二阶段要做出跟人的选择了文字转WAV音频