所以他提的条件完全是文字转WAV音频