只是凭一种直觉在判断文字转WAV音频