最后得出的结论确实就是一模一样文字转WAV音频