似乎在分辨他话中的真假文字转WAV音频