或许不会直接成为目标文字转WAV音频