掌握那个话语权的位置应该是他的文字转WAV音频