他们确实不想掺和文字转WAV音频