而是靠着自己的肉体去分辨文字转WAV音频