或许在整个种族层面上可以用文字转WAV音频