然后在他们的注视中文字转WAV音频