因为如果是人为操控的文字转WAV音频