从口型里得知到底说了什么文字转WAV音频