完全无法准确的捕捉气息文字转WAV音频