毕竟最开始那个疑似认出他们的是文字转WAV音频