展现在他们面前的情景是文字转WAV音频