这些依据可以是行为要素文字转WAV音频