因为他无法捕捉到演员在表演时的心理状态――他不是那个演员文字转WAV音频