而后者基本没有台词文字转WAV音频