交出一个他们认为可行的方案――包括成本和选角等等文字转WAV音频