分别是上半区和下半区文字转WAV音频