当时真正在实践的过程中出现的情况则是截然不同的文字转WAV音频