第二要求是精度文字转WAV音频