他们之间的关系应该是平等的文字转WAV音频