针对的是单个的较小目标文字转WAV音频