其实是在用眼角的余光在打量自己文字转WAV音频