自然也就无法确定这和巴里的说话内容是否能契合上文字转WAV音频