故此并需引入其它力量来平衡文字转WAV音频