这个方案的确更加容易实现文字转WAV音频