而控制则需要强大的神识文字转WAV音频