他们会一步步去尝试文字转WAV音频