他完全是根据摆放的位置来确定的文字转WAV音频