并且根据他们的行动文字转WAV音频