他很直白地给出了条件文字转WAV音频