从他们的对话来判断文字转WAV音频