再加上眼神和体型自然是认出来了文字转WAV音频