从而得到一个具备独立意识文字转WAV音频