核心思路是互相衬托文字转WAV音频