我们现在只能是挑出哪里不一样文字转WAV音频