因为他们所有的推测和计算都是围绕这三个点展开的文字转WAV音频