基本上确定了地方文字转WAV音频